Недавно окончив аспирантуру по статистике, я в последние пару месяцев начал искать работу в области статистики. Практически в каждой компании, которую я рассматривал, была опубликована вакансия с названием « Data Scientist ». На самом деле, казалось, что давно прошли дни, когда можно было видеть звания ученого- статистика или статистика . Действительно ли то, что я был специалистом по данным, заменило то, что было статистиком, или названия, которые меня интересовали, были синонимами?
Ну, большинство квалификаций для рабочих мест чувствовали себя как вещи, которые будут квалифицироваться под названием статистика. Для большинства работ требовалась степень доктора наук в области статистики ( ), больше всего требовалось понимание дизайна эксперимента ( ), линейной регрессии и anova ( checkmark ), обобщенных линейных моделей ( ) и других многомерных методов, таких как PCA ( ). а также знания в статистической вычислительной среде, такой как R или SAS ( ). Похоже, ученый данных на самом деле просто кодовое имя для статистики.✓ ✓ ✓ ✓ ✓
Однако каждое интервью, на которое я ходил, начиналось с вопроса: «Так вы знакомы с алгоритмами машинного обучения?» Чаще всего мне приходилось пытаться отвечать на вопросы о больших данных, высокопроизводительных вычислениях и темах по нейронным сетям, CART, вспомогательным векторным машинам, ускорению деревьев, неконтролируемым моделям и т. Д. Конечно, я убедил себя, что это все вопросы статистики в глубине души, но в конце каждого интервью я не мог не чувствовать, что все меньше и меньше знаю о том, что такое ученый по данным.
Я статистик, но я специалист по данным? Я работаю над научными проблемами, поэтому я должен быть ученым! А также я работаю с данными, поэтому я должен быть специалистом по данным! И согласно Википедии, большинство ученых согласились бы со мной ( https://en.wikipedia.org/wiki/Data_science и т. Д.)
Хотя использование термина «наука о данных» в бизнес-среде резко возросло, многие ученые и журналисты не видят различий между наукой о данных и статистикой.
Но если я собираюсь пройти все эти собеседования на должность ученого по данным, почему мне кажется, что они никогда не задают мне статистические вопросы?
Ну, после моего последнего собеседования я захотел, чтобы любой хороший ученый поступил, и я искал данные для решения этой проблемы (эй, в конце концов, я ученый данных). Однако после многих бесчисленных поисков в Google я оказался там, где начал чувствовать, что снова пытаюсь определить, что представляет собой ученый по данным. Я не знал, что такое ученый данных, поскольку у него было так много определений ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) но казалось, что все говорили мне, что я хочу быть одним из них:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- и т.д .... список можно продолжить.
Ну, в конце концов, я понял, что такое «ученый данных», это очень сложный вопрос. Черт, в Амстате было два полных месяца, где они посвятили время попыткам ответить на этот вопрос:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Ну, пока, я должен быть сексуальным статистиком, чтобы быть специалистом по данным, но, надеюсь, кросс-валидированное сообщество сможет пролить некоторый свет и помочь мне понять, что значит быть специалистом по данным. Разве не все специалисты по статистике данных?
(Edit / Update)
Я думал, что это может оживить разговор. Я только что получил электронное письмо от Американской статистической ассоциации о работе с Microsoft в поиске Data Scientist. Вот ссылка: Должность ученого . Я думаю, что это интересно, потому что роль позиции влияет на многие специфические черты, о которых мы говорили, но я думаю, что многие из них требуют очень строгого опыта в статистике, а также противоречат многим ответам, опубликованным ниже. В случае, если ссылка не работает, вот те качества, которые Microsoft ищет в специалисте по данным:
Основные требования и навыки работы:
Опыт работы в сфере бизнеса с использованием аналитики
- Должен иметь опыт в нескольких соответствующих областях бизнеса в использовании навыков критического мышления для концептуализации сложных бизнес-задач и их решений с использованием расширенной аналитики в крупномасштабных реальных наборах бизнес-данных
- Кандидат должен иметь возможность самостоятельно управлять аналитическими проектами и помогать нашим внутренним клиентам понимать выводы и воплощать их в действия, приносящие пользу их бизнесу.
Прогнозирующее моделирование
- Опыт различных отраслей в прогнозном моделировании
- Определение бизнес-задач и концептуальное моделирование с клиентом для выявления важных отношений и определения объема системы
Статистика / Эконометрика
- Исследовательская аналитика данных для непрерывных и категориальных данных
- Спецификация и оценка структурных моделей уравнений для поведения предприятия и потребителя, себестоимости продукции, факторного спроса, дискретного выбора и других технологических взаимосвязей по мере необходимости
- Продвинутые статистические методы для анализа непрерывных и категориальных данных
- Анализ временных рядов и внедрение моделей прогнозирования
- Знания и опыт работы с несколькими переменными проблемами
- Умение оценивать правильность модели и проводить диагностические тесты
- Способность интерпретировать статистику или экономические модели
- Знания и опыт в построении моделирования дискретных событий и динамических имитационных моделей
Управление данными
- Знакомство с использованием T-SQL и аналитики для преобразования данных и применением методов исследовательского анализа данных для очень больших наборов данных реального мира.
- Внимание к целостности данных, включая избыточность данных, точность данных, ненормальные или экстремальные значения, взаимодействия данных и пропущенные значения.
Навыки общения и сотрудничества
- Работать независимо и иметь возможность работать с виртуальной проектной командой, которая будет искать инновационные решения для сложных бизнес-задач
- Сотрудничайте с партнерами, применяйте навыки критического мышления и доводите аналитические проекты до конца
- Превосходные коммуникативные навыки, как устные, так и письменные
- Визуализация аналитических результатов в форме, которую могут использовать различные заинтересованные стороны
Пакеты программ
- Расширенные статистические / эконометрические программные пакеты: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Исследование, визуализация и управление данными: T-SQL, Excel, PowerBI и аналогичные инструменты
Квалификация:
- Требуется минимум 5+ лет соответствующего опыта
- Аспирантура в количественной области желательна.