Что такое ученый данных?


181

Недавно окончив аспирантуру по статистике, я в последние пару месяцев начал искать работу в области статистики. Практически в каждой компании, которую я рассматривал, была опубликована вакансия с названием « Data Scientist ». На самом деле, казалось, что давно прошли дни, когда можно было видеть звания ученого- статистика или статистика . Действительно ли то, что я был специалистом по данным, заменило то, что было статистиком, или названия, которые меня интересовали, были синонимами?

Ну, большинство квалификаций для рабочих мест чувствовали себя как вещи, которые будут квалифицироваться под названием статистика. Для большинства работ требовалась степень доктора наук в области статистики ( ), больше всего требовалось понимание дизайна эксперимента ( ), линейной регрессии и anova ( checkmark ), обобщенных линейных моделей ( ) и других многомерных методов, таких как PCA ( ). а также знания в статистической вычислительной среде, такой как R или SAS ( ). Похоже, ученый данных на самом деле просто кодовое имя для статистики.

Однако каждое интервью, на которое я ходил, начиналось с вопроса: «Так вы знакомы с алгоритмами машинного обучения?» Чаще всего мне приходилось пытаться отвечать на вопросы о больших данных, высокопроизводительных вычислениях и темах по нейронным сетям, CART, вспомогательным векторным машинам, ускорению деревьев, неконтролируемым моделям и т. Д. Конечно, я убедил себя, что это все вопросы статистики в глубине души, но в конце каждого интервью я не мог не чувствовать, что все меньше и меньше знаю о том, что такое ученый по данным.

Я статистик, но я специалист по данным? Я работаю над научными проблемами, поэтому я должен быть ученым! А также я работаю с данными, поэтому я должен быть специалистом по данным! И согласно Википедии, большинство ученых согласились бы со мной ( https://en.wikipedia.org/wiki/Data_science и т. Д.)

Хотя использование термина «наука о данных» в бизнес-среде резко возросло, многие ученые и журналисты не видят различий между наукой о данных и статистикой.

Но если я собираюсь пройти все эти собеседования на должность ученого по данным, почему мне кажется, что они никогда не задают мне статистические вопросы?

Ну, после моего последнего собеседования я захотел, чтобы любой хороший ученый поступил, и я искал данные для решения этой проблемы (эй, в конце концов, я ученый данных). Однако после многих бесчисленных поисков в Google я оказался там, где начал чувствовать, что снова пытаюсь определить, что представляет собой ученый по данным. Я не знал, что такое ученый данных, поскольку у него было так много определений ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) но казалось, что все говорили мне, что я хочу быть одним из них:

Ну, в конце концов, я понял, что такое «ученый данных», это очень сложный вопрос. Черт, в Амстате было два полных месяца, где они посвятили время попыткам ответить на этот вопрос:

Ну, пока, я должен быть сексуальным статистиком, чтобы быть специалистом по данным, но, надеюсь, кросс-валидированное сообщество сможет пролить некоторый свет и помочь мне понять, что значит быть специалистом по данным. Разве не все специалисты по статистике данных?


(Edit / Update)

Я думал, что это может оживить разговор. Я только что получил электронное письмо от Американской статистической ассоциации о работе с Microsoft в поиске Data Scientist. Вот ссылка: Должность ученого . Я думаю, что это интересно, потому что роль позиции влияет на многие специфические черты, о которых мы говорили, но я думаю, что многие из них требуют очень строгого опыта в статистике, а также противоречат многим ответам, опубликованным ниже. В случае, если ссылка не работает, вот те качества, которые Microsoft ищет в специалисте по данным:

Основные требования и навыки работы:

Опыт работы в сфере бизнеса с использованием аналитики

  • Должен иметь опыт в нескольких соответствующих областях бизнеса в использовании навыков критического мышления для концептуализации сложных бизнес-задач и их решений с использованием расширенной аналитики в крупномасштабных реальных наборах бизнес-данных
  • Кандидат должен иметь возможность самостоятельно управлять аналитическими проектами и помогать нашим внутренним клиентам понимать выводы и воплощать их в действия, приносящие пользу их бизнесу.

Прогнозирующее моделирование

  • Опыт различных отраслей в прогнозном моделировании
  • Определение бизнес-задач и концептуальное моделирование с клиентом для выявления важных отношений и определения объема системы

Статистика / Эконометрика

  • Исследовательская аналитика данных для непрерывных и категориальных данных
  • Спецификация и оценка структурных моделей уравнений для поведения предприятия и потребителя, себестоимости продукции, факторного спроса, дискретного выбора и других технологических взаимосвязей по мере необходимости
  • Продвинутые статистические методы для анализа непрерывных и категориальных данных
  • Анализ временных рядов и внедрение моделей прогнозирования
  • Знания и опыт работы с несколькими переменными проблемами
  • Умение оценивать правильность модели и проводить диагностические тесты
  • Способность интерпретировать статистику или экономические модели
  • Знания и опыт в построении моделирования дискретных событий и динамических имитационных моделей

Управление данными

  • Знакомство с использованием T-SQL и аналитики для преобразования данных и применением методов исследовательского анализа данных для очень больших наборов данных реального мира.
  • Внимание к целостности данных, включая избыточность данных, точность данных, ненормальные или экстремальные значения, взаимодействия данных и пропущенные значения.

Навыки общения и сотрудничества

  • Работать независимо и иметь возможность работать с виртуальной проектной командой, которая будет искать инновационные решения для сложных бизнес-задач
  • Сотрудничайте с партнерами, применяйте навыки критического мышления и доводите аналитические проекты до конца
  • Превосходные коммуникативные навыки, как устные, так и письменные
  • Визуализация аналитических результатов в форме, которую могут использовать различные заинтересованные стороны

Пакеты программ

  • Расширенные статистические / эконометрические программные пакеты: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Исследование, визуализация и управление данными: T-SQL, Excel, PowerBI и аналогичные инструменты

Квалификация:

  • Требуется минимум 5+ лет соответствующего опыта
  • Аспирантура в количественной области желательна.

6
Хороший вопрос! В последнее время я очень много задумываюсь об этом. На мой взгляд, кажется, что работы, которые включают в себя специалиста по данным в описании, ищут людей, которые могут применять статистические / ML методы, которые хорошо масштабируются, а не людей, которые могут иметь дело с теорией. Я все еще думаю, что в этих должностных инструкциях есть некоторая избыточность. Требование доктора философии, вероятно, часто является чрезмерной квалификацией, и сотрудники отдела кадров, которые делают эти должностные инструкции, находятся под сильным влиянием ажиотажа вокруг больших данных. Является ли специалист по данным статистиком или наоборот - это главный вопрос, на который я хочу получить ответ.
Gumeo

4
Я думаю, что это отличная статья, которая как бы учитывает этот сдвиг в культурах того, чтобы быть статистиком, а не ученым,
работающим

6
«Но если я собираюсь пройти все эти собеседования на должность ученого по данным, почему мне кажется, что они никогда не задают мне статистические вопросы» ... история моей жизни ... буквально LOL !!! Я думаю, что наука о данных, статистика, эконометрика, биостат, и т. Д. имеют значительное совпадение, но все они используют разные жаргонные выражения, что затрудняет общение (особенно, когда вы проходите собеседование с сотрудником отдела кадров, который не обладает знаниями и фокусируется на ключевых словах). Надеемся, что увеличение междисциплинарных усилий и некоторая столь необходимая открытость изменит это в будущем.
Захари Блюменфельд

9
Я следил за «подъемом исследователя данных» с тех пор, как он стал массовым примерно в 2008 году. Для меня это был и остается в основном маркетинговый термин, вызывающий ажиотаж - статистика дисциплин, машинное обучение, инженерия данных, анализ данных - все это то же самое с другим акцентом. Перефразируя Г. Бокс: Если вам задают такие вопросы, как «Являетесь ли вы байесовцем, частым специалистом, аналитиком данных, разработчиком экспериментов, исследователем данных?» Скажи да".
Момо

10
@Momo: Тем не менее, если открыть один из 600+ страниц учебников под названием «Машинное обучение» (или аналогичный) и один из учебников под названием «Статистика» (или аналогичный), будет очень мало совпадений. Мой Епископа Pattern Recognition и машинное обучение или Мерфи машинного обучение имеют почти нулевое пересечение с Леман и Casella теорией точечного оценивания , Казеллами & Berger статистических выводами , или Максвелл и Делань Проектирования экспериментами и анализом данными . Они настолько разные, что я думаю, что люди, знакомые с одним набором книг, могут испытывать затруднения при чтении другого.
амеба

Ответы:


52

Есть несколько юмористических определений, которые еще не были даны:

Data Scientist: Кто-то, кто делает статистику на Mac.

Мне нравится этот, так как он играет на угле больше, чем вещество.

Data Scientist: Статистик, который живет в Сан-Франциско.

Точно так же это риффы на западном побережье аромата всего этого.

Лично я считаю обсуждение (вообще и здесь) несколько скучным и повторяющимся. Когда я думал о том, что я хотел - возможно, четверть века или дольше назад - я стремился к количественному аналитику. Это все еще то, что я делаю (и люблю!), И это в основном пересекается и покрывает то, что было дано здесь в различных ответах.

(Примечание: существует более старый источник для второй цитаты, но я не могу найти его прямо сейчас.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitiveи я бы добавил, что напрасные разговоры о пустяках или новых шумных словах. Я до сих пор не могу провести различие между учеными-данными, учеными-христианами и саентологами.
ttnphns

1
LOL @ data сайентологи.
dsaxton

4
И я снимаю шляпу перед (конечно, анонимным) Очень Серьезным Человеком, который только что пришел, понизил голосование и не оставил причину. Подсказка: это не то, как обсуждение улучшается.
Дирк Эддельбюттель

1
Будучи статистиком в Южном Сан-Франциско, который очень активно борется с титулом Data Scientist, второе определение подходит слишком близко к дому (но я не был спущен на воду).
Клифф AB

1
(+1) @CliffAB Я также статистик в Южном Сан-Франциско.
RustyStatistician

87

Люди определяют науку данных по-разному, но я думаю, что общая часть такова:

  • практические знания, как обращаться с данными,
  • практические навыки программирования.

Вопреки своему названию, это редко "наука". То есть в науке о данных акцент делается на практических результатах (например, в машиностроении), а не на доказательствах, математической чистоте или строгости, свойственной академической науке. Вещи должны работать, и есть небольшая разница, если это основано на академической работе, использовании существующей библиотеки, вашем собственном коде или импровизированном взломе.

Статистик не нужен программист (может использовать ручку и бумагу и специальное программное обеспечение). Кроме того, некоторые вакансии в науке о данных не имеют ничего общего со статистикой. Например, это инженерия данных, такая как обработка больших данных, даже если самые сложные математические вычисления могут вычислять среднее значение (хотя я лично не назвал бы эту деятельность "наукой о данных"). Более того, «наука о данных» раскручена, поэтому косвенно связанные с этим должности используют это название - чтобы заманить претендентов или поднять эго на нынешних работников.

Мне нравится таксономия из ответа Майкла Хохстера о Quora :

Тип данных Ученый: А для анализа. Этот тип в первую очередь касается понимания данных или работы с ними довольно статичным способом. Специалист по типу данных очень похож на статистика (и может быть один), но знает все практические детали работы с данными, которые не изучаются в учебной программе по статистике: очистка данных, методы работы с очень большими наборами данных, визуализация глубокое знание конкретной области, хорошее написание данных и так далее.

Тип B Ученый данных: B предназначен для строительства. Ученые, работающие с данными типа B, делятся некоторыми статистическими данными с типом A, но они также являются очень сильными программистами и могут быть подготовленными разработчиками программного обеспечения. Специалист по типу данных В в основном заинтересован в использовании данных «в производстве». Они создают модели, которые взаимодействуют с пользователями, часто предлагая рекомендации (продукты, люди, которых вы знаете, объявления, фильмы, результаты поиска).

В этом смысле Type A Data Scientist - это статистик, который умеет программировать. Но даже в количественном отношении могут быть люди, имеющие более глубокие знания в области компьютерных наук (например, машинное обучение), чем в обычной статистике, или те, кто занимается, например, визуализацией данных.

И Диаграмма Вена Науки Данных (здесь: взлом ~ программирование):

Data Science Venn Diagram

см. также альтернативные диаграммы Венна ( это и то ). Или даже твит , хотя и юмористический, показывающий сбалансированный список типичных навыков и действий ученого, занимающегося данными:

ученый данных должен быть в состоянии

Смотрите также этот пост: Ученый данных - статистика, программист, консультант и визуализатор? ,


14
Мне нравится твит Я бы добавил, что он также должен знать, как выпекать пиццу, выращивать собственные экологически чистые овощи, писать стихи и танцевать сальсу :)
Тим

3
Незначительный спор: не все «науки» делают акцент на «доказательствах или математической чистоте». Подумайте, например, биология.
амеба

2
Что значит взломать p-значение? Мне кажется, что кто-то (он же клиент) имеет заданную цель p-значения, и ученый должен вырезать и вырезать данные, чтобы можно было достичь цели p-значения. Или это должно означать что-то другое?
Эмори

2
@amory Этот твит юмористичен (это вставка абзаца из en.wikiquote.org/wiki/Time_Enough_for_Love : «Человек должен уметь [перечислять]. Специализация для насекомых».). «Взломать р-значение», безусловно, является мрачной практикой (к сожалению, распространенной в некоторых академических дисциплинах), и (я надеюсь) здесь как шутка.
Петр Мигдаль

4
+1 за замечание о том, что нельзя называть кого-либо специалистом по данным, который вычисляет упрощенную «статистику» по огромным наборам данных. Я думаю, что мы выходим из этапа в науке о данных, когда ученые-компьютерщики, специализирующиеся на кластерных вычислениях (Hadoop и т. Д.), Были названы «специалистами по данным». Я не смотрю свысока на эти навыки, но они не так важны, как навыки в области статистики / рассуждения / расследования, и технология выходит за рамки сокращения карт.
Уэйн

42

Есть ряд исследований в области науки о данных. Мне нравится этот , потому что он пытается проанализировать профили людей, которые фактически работают на науке о данных. Вместо того, чтобы использовать неподтвержденные данные или предвзятость автора, они используют методы науки данных для анализа ДНК ученого данных.

Довольно показательно смотреть на навыки, перечисленные учеными в области данных. Обратите внимание, что 20 лучших навыков содержат множество ИТ-навыков.

В современном мире ученый, работающий с данными, должен быть мастером на все руки; самообучающийся, у которого есть солидная количественная основа, способность к программированию, бесконечное интеллектуальное любопытство и отличные коммуникативные навыки.

введите описание изображения здесь

ОБНОВИТЬ:

Я статистик, но я специалист по данным? Я работаю над научными проблемами, поэтому я должен быть ученым!

Если у вас есть докторская степень, вы, скорее всего, уже ученый, особенно если у вас есть опубликованные статьи и активные исследования. Вы не должны быть ученым, чтобы быть ученым данных, все же. Есть некоторые роли в некоторых фирмах, таких как Walmart (см. Ниже), где требуется докторская степень, но обычно ученые-ученые имеют степени BS и MS, как вы можете видеть из примеров ниже.

Как видно из приведенной выше таблицы, скорее всего, вам понадобятся хорошие навыки программирования и обработки данных. Кроме того, часто наука о данных связана с некоторым уровнем, часто «глубоким», опытом в машинном обучении. Вы, конечно, можете назвать себя специалистом по данным, если у вас есть докторская степень в области статистики. Тем не менее, докторская степень в области компьютерных наук из лучших школ может быть более конкурентоспособной, чем у выпускников, потому что они могут обладать достаточно сильными прикладными статистическими знаниями, которые дополняются сильными навыками программирования - востребованная комбинация работодателей. Чтобы противостоять им, вы должны приобрести сильные навыки программирования, поэтому в итоге вы будете очень конкурентоспособны. Интересно то, что обычно все статические доктора наук имеют некоторый опыт программирования, но в науке о данных часто требования намного выше, чем

Для меня преимущество наличия доктора философии в статистике заключается в задаче, описанной в оставшейся части фразы «мастер на все руки», которую обычно отбрасывают: «мастер ни одного». Хорошо, когда есть люди, которые знают немного всего, но я всегда ищу людей, которые тоже что-то глубоко знают, будь то статистика или информатика, это не так важно. Важно то, что парень способен добраться до сути, это удобное качество, когда вам это нужно.

Опрос также перечисляет ведущих работодателей ученых данных. Microsoft находится на вершине, по-видимому, что меня удивило. Если вы хотите получить лучшее представление о том, что они ищут, полезно поискать в LinkeIn с «наукой о данных» в разделе «Работа». Ниже приведены две выдержки из работы MS и Walmart в LinkedIn, чтобы подчеркнуть.

  • Microsoft Data Scientist

    • Более 5 лет опыта разработки программного обеспечения в создании систем обработки данных / услуг
    • Бакалавры или более высокие квалификации в области компьютерных наук, EE или Math со специализацией в области статистики, интеллектуального анализа данных или машинного обучения.
    • Отличные навыки программирования (C #, Java, Python и т. Д.) При работе с крупномасштабными данными
    • Знание Hadoop или другой технологии обработки больших данных
    • Знание аналитических продуктов (например, R, SQL AS, SAS, Mahout и т. Д.) Является плюсом.

Обратите внимание, что знание пакетов stat - это только плюс, но для этого необходимы отличные навыки программирования на Java.

  • Walmart, Data Scientist

    • Кандидат в области компьютерных наук или аналогичной области или MS с опытом работы не менее 2-5 лет
    • Хорошие навыки функционального кодирования на C ++ или Java (Java является наиболее предпочтительным)
    • должен уметь тратить до 10% ежедневного рабочего дня на написание производственного кода на C ++ / Java / Hadoop / Hive
    • Знание на уровне эксперта одного из языков сценариев, таких как Python или Perl.
    • Опыт работы с большими наборами данных и инструментами распределенных вычислений плюс (Map / Reduce, Hadoop, Hive, Spark и т. Д.)

Здесь, доктор философии является предпочтительным, но названа только специальность информатики. Распределенные вычисления с помощью Hadoop или Spark, вероятно, являются необычным навыком для статистики, но некоторые физики-теоретики и прикладные математики используют подобные инструменты.

ОБНОВЛЕНИЕ 2:

«Уже настало время убить заголовок« Data Scientist »», - говорит Томас Давенпорт, который в соавторстве написал статью в Harvard Business Review в 2012 году под названием «Data Scientist: Самая сексуальная работа 21-го века» .

Что значит сегодня сказать, что вы - или хотите быть, или хотите нанять - «ученым данных»? К сожалению, не так много.


3
+1 за использование данных и ссылки на хороший отчет на основе данных. Но нужен ли на скриншоте интерфейс веб-браузера?
Петр Мигдаль,

@PiotrMigdal, я должен научиться обрезать или перестать быть ленивым
Аксакал

4
Я обрезал это для вас.
амеба

1
Я испытываю соблазн понизить голос после сегодняшнего обновления: эта тема уже очень занята, и наличие гигантской цитатной стены для прокрутки вниз, на мой взгляд, не очень помогает ... Возможно, ссылки + краткое резюме могут быть достаточными?
амеба

1
@amoeba, я сократил список. Это справедливый комментарий
Аксакал

39

Где-то я читал это (РЕДАКТИРОВАТЬ: Джош Уилл объясняет свой твит ):

Специалист по данным - это человек, который лучше в статистике, чем любой программист, и лучше в программировании, чем любой статистик.

Эта цитата может быть кратко объяснена этим процессом науки о данных . Первый взгляд на эту схему выглядит как «ну, где же часть программирования?», Но если у вас есть тонны данных, вы должны быть в состоянии их обработать.


11
Так что, вероятно, каждый участник R, являющийся статистиком, является специалистом по данным? ;)
Тим

15
Ух ты, я просто гулял по сайту, задавался вопросом об этом вопросе (учитывая, что в нем есть данные ), а затем мимоходом узнал, что у меня есть чертова страница Википедии ? Это было для меня новостью ... И за то, что стоит, я учился эконометрике, а не статистике, но проработал «квантом» более 20 лет. Это фактически то же самое, что наука о данных ...
Дирк Эддельбюттель

3
-1. Я не одобряю цитату не потому, что мне не нравится цитата (скорее всего, это был язык в щеке), а потому, что ответ слишком короткий и несущественный, в частности по сравнению со многими другими ответами здесь. Я бы предположил, что он преобразуется в комментарий, если, возможно, вы не расширите его каким-либо образом.
амеба

3
Вот объяснение этой цитаты ее автора Джоша Уиллса . Первые три абзаца после цитаты весьма уместны для этого обсуждения.
амеба

3
@amoeba: Мне понравилась статья Джоша Уиллса до этого момента: «Я подозреваю, что мы учим людей продвинутой статистике таким образом, что это пугает компьютерных ученых, сосредотачиваясь на параметрических моделях, которые требуют большого исчисления вместо непараметрических моделей которые в основном вычислительные ". Кроме того, я не согласен с ним в том, что легче обучать продвинутую статистику сотрудникам CS, чем тому, как хорошо программировать для статистиков (хотя я, конечно, согласен, что большинство статистиков - ужасные программисты).
Клифф А.Б.

15

Я написал несколько ответов, и каждый раз они становились длинными, и в конце концов я решил, что я встаю на мыльницу. Но я думаю, что этот разговор не полностью исследовал два важных фактора:

  1. Наука в науке данных. Научный подход заключается в том, что вы пытаетесь разрушить свои собственные модели, теории, особенности, выбор методов и т. Д., И только когда вы не можете этого сделать, вы соглашаетесь с тем, что ваши результаты могут быть полезны. Это образ мышления, и многие из лучших ученых, с которыми я встречался, имеют глубокие научные знания (химия, биология, инженерия).

  2. Наука о данных - это широкая область. Хорошие результаты Data Science обычно включают в себя небольшую команду Data Scientists, каждый со своей специализацией. Например, один член команды более строг и статистичен, другой - лучший программист с инженерным образованием, а другой - сильный консультант, разбирающийся в бизнесе. Все трое быстро изучают предмет, и все трое любопытны и хотят найти правду - пусть и болезненную - и делать то, что в интересах (внутреннего или внешнего) клиента, даже если клиент этого не делает. Т понять.

Причудой последних нескольких лет, которая, как мне кажется, сейчас исчезает, является набор специалистов по компьютерам, которые освоили кластерные технологии (экосистема Hadoop и т. Д.) И которые считают его идеальным специалистом по данным. Я думаю, что это то, с чем столкнулся OP, и я бы посоветовал OP использовать их сильные стороны в строгости, правильности и научном мышлении.


@RustyStatistician: Всегда пожалуйста. Я бы добавил, что у консультанта, в котором я работаю, есть докторская степень (инженерия, биология, астрономия, информатика), но в целом взгляды на степень магистра наук - часто люди с опытом работы, которые возвращаются для получения степени магистра в области аналитики - как приятное место , Тем не менее, я благодарен каждый день за моего сотрудника PhD биологии, который в настоящее время работает над проектом, где я технический руководитель. Наряду с руководителем проекта, который имеет опыт работы в области экономики (и имеет степень магистра аналитики), мы отличная команда! (Мой MS в искусственном интеллекте.)
Уэйн

+1, но я удивляюсь, как вы впервые заметили, что [хорошая] наука о данных - это наука. Если это так, это любопытный и, возможно, вводящий в заблуждение (?) Термин, потому что «наука о данных» не изучает «данные» сама по себе; он использует данные для изучения чего-то другого, что бы ни интересовало данное приложение. Напротив, например, «политология» должна изучать политику, а «нейробиология» изучает нейроны, как следует из названия.
амеба

1
@amoeba: На самом деле, я имел в виду, что Data Scientist должен использовать научный метод аля Ричарда Фейнмана как часть того, как они понимают и используют данные. (Как вы говорите, в погоне за конкретным приложением.) Это статистическая часть работы: «Эта переменная кажется очень важной - это утечка из будущего?» Или «Эта модель кажется разумной, но давайте запустим CV для всего процесса создания модели, а затем сделаем некоторую повторную выборку в дополнение к этому». Он изо всех сил пытается опровергнуть вашу модель / теорию и вовлечь в это других. Не принимать "Зеленые M & Ms вызывают рак".
Уэйн

@Wayne - единственный, кто упомянул «научный метод» до сих пор. Это так грустно.
jgomo3

Понимание физики, особенно юнитов, необходимо каждому, кто пытается что-то понять. Однако в этом нашем новом дивном мире часто достаточно проводить эвристические наблюдения, которые имеют субоптимальную прогностическую ценность как «стоп-сигналы», но не являются реальными решениями.
Карл

14

Я думаю, что Bitwise покрывает большую часть моего ответа, но я собираюсь добавить свой 2c.

Нет, извините, но статистика не является специалистом по данным, по крайней мере, исходя из того, как большинство компаний определяют роль сегодня. Обратите внимание, что определение изменилось с течением времени, и одна из задач практикующих специалистов - убедиться, что они остаются актуальными.

Я поделюсь некоторыми общими причинами того, почему мы отказываемся от кандидатов на роль «Data Scientist»:

  • Ожидания по поводу объема работ. Обычно DS должен иметь возможность работать независимо. Это означает, что некому больше создать для него набор данных для решения поставленной перед ним задачи. Поэтому ему нужно уметь находить источники данных, запрашивать их, моделировать решение, а затем, часто, также создавать прототип, который решает проблему. Во многих случаях это просто создание информационной панели, будильника или оперативного отчета, который постоянно обновляется.
  • Связь . Похоже, что многим статистикам трудно «упростить» и «продать» свои идеи деловым людям. Можете ли вы показать только один график и рассказать историю на основе данных таким образом, чтобы все в комнате могли ее получить? Обратите внимание, что после того, как вы обеспечите безопасность, вы сможете защитить каждый бит анализа, если вам это будет необходимо.
  • Навыки кодирования . Нам не нужны навыки кодирования на уровне производства, так как для этого у нас есть разработчики, нам нужно, чтобы она смогла написать прототип и развернуть его как веб-сервис в экземпляре AWS EC2. Таким образом, навыки кодирования не означают умение писать R-скрипты. Я могу добавить беглость в Linux где-то здесь, наверное. Таким образом, планка просто выше того, во что склонны верить большинство статистиков.
  • SQL и базы данных . Нет, он не может поднять это на работе, поскольку нам действительно нужно, чтобы он адаптировал базовый SQL, который он уже знает, и научился делать запросы к различным системам БД, которые мы используем в организации, включая Redshift, HIVE и Presto - каждый из который использует свой собственный вкус SQL. Кроме того, изучение SQL на работе означает, что кандидат будет создавать проблемы у любого другого аналитика, пока он не научится писать эффективные запросы.
  • Машинное обучение . Обычно они используют Логистическую регрессию или несколько других методов для решения проблемы, основанной на данном наборе данных (стиль Kaggle). Тем не менее, даже если интервью начинается с алгоритмов и методов, вскоре оно будет сфокусировано на таких темах, как генерация функций (помните, что вам нужно создать набор данных, больше некому его создавать), удобство обслуживания, масштабируемость и производительность, а также связанные с ними компромиссы. Для некоторого контекста вы можете проверить соответствующую статью от Google, опубликованную в NIPS 2015.
  • Анализ текста . Не обязательно иметь, но некоторый опыт в обработке естественного языка это хорошо иметь. В конце концов, большая часть данных находится в текстовом формате. Как уже говорилось, никто не может преобразовать и очистить текст для вас, чтобы сделать его пригодным для использования с помощью ML или другого статистического подхода. Также обратите внимание, что сегодня даже выпускники CS уже сделали какой-то проект, который ставит этот флажок.

Конечно, для младшей роли не может быть всего вышеперечисленного. Но сколько из этих навыков вы можете позволить себе пропустить и получить работу?

Наконец, чтобы уточнить, самой распространенной причиной отказа от не статистиков является именно отсутствие даже базовых знаний статистики. И где-то есть разница между инженером данных и специалистом по данным. Тем не менее, инженеры данных, как правило, претендуют на эти роли, так как часто они считают, что «статистика» - это просто среднее значение, дисперсия и нормальное распределение. Таким образом, мы можем добавить несколько важных, но страшных статистических словечек в должностных инструкциях, чтобы прояснить, что мы подразумеваем под «статистикой», и избежать путаницы.


4
С 2006 года я преподаю курсы по прикладной статистике и анализу данных в программах под названием «бизнес-информатика» в двух университетах, и это на 100% относится к тому, что учат мои студенты. 1. Они должны собирать реальные, возможно, грязные данные из своего бизнеса, Интернета, опросов и т. Д. 2. Очистить, подготовить и сохранить данные в базе данных SQL для курса. 3. Сделайте различные статистические анализы на данных. 4. Подготовьте краткие исполнительные записки на 1-2 страницы и напишите подробный отчет с буквальным программированием (knitr или тому подобное). Из этих данных наука бизнес-информатика с дополнительной статистикой / курсом ML, нет?
Момо

4
Конечно, ваш курс охватывает многие необходимые навыки. Я предполагаю, что мы можем найти много комбинаций, например, степень по компьютерным наукам с некоторыми курсами по статистике и диссертация / стажировка по проблеме, основанной на бизнес-ML. В конце дня важна глубина и широта соответствующих навыков, которые кандидат приносит на стол.
iliasfl

11

Позвольте мне игнорировать ажиотаж и модные слова. Я думаю, что «Data Scientist» (или как вы хотите это называть) - это реальная вещь, которая отличается от статистики. Есть много типов должностей, которые по сути являются специалистами по данным, но им не дано это имя - один из примеров - люди, работающие в области геномики.

На мой взгляд, ученый, занимающийся данными, - это тот, кто обладает навыками и знаниями для разработки и проведения исследований больших объемов сложных данных (например, многомерных, в которых основные механизмы неизвестны и сложны).

Это означает:

  • Программирование: способность реализовывать анализ и конвейеры, часто требующие некоторого уровня распараллеливания и взаимодействия с базами данных и высокопроизводительными вычислительными ресурсами.
  • Информатика (алгоритмы): разработка / выбор эффективных алгоритмов, чтобы выполнимый анализ был осуществим и частота ошибок контролировалась. Иногда это может также потребовать знания численного анализа, оптимизации и т. Д.
  • Информатика / статистика (обычно акцент на машинном обучении): разработка и внедрение структуры, чтобы задавать вопросы о данных или находить в них «закономерности». Это будет включать не только знание различных тестов / инструментов / алгоритмов, но также и то, как спроектировать правильное удержание, перекрестную проверку и так далее.
  • Моделирование: часто мы хотели бы иметь возможность создать какую-то модель, которая дает более простое представление данных, чтобы мы могли делать полезные прогнозы и получать представление о механизмах, лежащих в основе данных. Вероятностные модели очень популярны для этого.
  • Экспертиза, специфичная для конкретной области. Одним из ключевых аспектов успешной работы со сложными данными является использование информации, специфичной для конкретной области. Поэтому я бы сказал, что крайне важно, чтобы специалист по данным либо имел опыт в данной области, мог быстро освоить новые области или у него был хороший интерфейс для взаимодействия с экспертами в этой области, которые могут дать полезную информацию о том, как подходить к данным. ,

6
А кто, по вашему мнению, статистика? Чем этот список навыков отличается от навыков, которыми должен обладать «статистик»?
амеба

4
@amoeba Я могу ошибаться, но многие статистики не обладают некоторыми из этих навыков (например, обширное программирование с массивными наборами данных, обучение на уровне выпускников по информатике). Кроме того, некоторые статистические навыки не имеют значения для часто ученого данных (некоторые из теории, некоторые подполя).
Побитовое

4
@rocinante: Я категорически не согласен с тем, что «программирование с помощью« массивных наборов данных »на самом деле не является помехой». Я не думаю, что знаю кого-либо с названием «статистика», который мог бы реализовать программное обеспечение, которое принимает решения в режиме реального времени на основе входящих пакетов на сервер. Конечно, не все ученые данных могли бы, но пропорция намного выше.
Клифф AB

3
@rocinante хорошее понимание статистики необходимо, но, на мой взгляд, недостаточно. Что касается глубины / сложности статистики по сравнению с другими навыками, я бы сказал, что получить хорошее представление о стороне информатики так же глубоко / трудно, если не больше. Кроме того, что касается вопросов в этой SE, вы найдете такие вопросы в любой SE (включая эту) - это ничего не значит, за исключением того, что некоторые люди хотят простых решений без понимания.
поразрядно

6
Одна вещь, которая становится утомительной в этих дебатах «наука о данных против статистики», - это тонкое следствие того, что ученые, работающие с данными, похожи на высококлассных статистиков. Дело в том, что по мере того, как широта ваших знаний увеличивается, глубина углубляется, и людей, которые лучше, чем невежественны во всех задачах, необходимых для того, чтобы стать «ученым данных», я мог бы представить, что их знания о большинстве этих вещей будут довольно поверхностно В общем, чрезвычайно трудно даже приблизиться к тому, чтобы быть экспертом в любой из областей, которые люди ожидают, что эти мифические ученые данных овладеют.
дсакстон

7

Все отличные ответы, однако в моем опыте поиска работы я отметил, что термин «ученый данных» был перепутан с «младшим аналитиком данных» в умах рекрутеров, с которыми я общался. Таким образом, многие приятные люди, не имеющие опыта в области статистики, за исключением того вводного однократного курса, который они прошли пару лет назад, теперь называют себя учеными данных. Как человек с опытом работы в области компьютерных наук и многолетним опытом работы в качестве аналитика данных, я получил степень кандидата наук в области статистики позднее в своей карьере, думая, что это поможет мне выделиться из толпы, и я оказался в неожиданно большой толпе "ученых-данных". ». Я думаю, что я мог бы вернуться к "статистике"!


5
Я в основном вижу то же самое. Любая работа, которая требует некоторой работы с данными или некоторого анализа, называется «Наукой данных». Я думаю, что очень похожая вещь произошла с «Квантом» в области финансов, где любой, кто работал с данными, называл себя «Квантом».
Akavall

6

Я младший сотрудник, но моя должность называется «ученый данных». Я думаю, что ответ Bitwise является удачным описанием того, что меня наняли, но я хотел бы добавить еще один момент, основанный на моем повседневном опыте работы:

Data ScienceStatistics,
StatisticsData Science.

Наука - это процесс исследования. Когда данные являются средством, с помощью которого делается этот запрос, происходит наука о данных. Это не означает, что каждый, кто экспериментирует или проводит исследования с данными, обязательно является специалистом по данным, точно так же, как не каждый, кто экспериментирует или проводит исследования с проводкой, обязательно является инженером-электриком. Но это означает, что можно приобрести достаточно подготовки, чтобы стать профессиональным «запросчиком данных», точно так же, как можно приобрести достаточно подготовки, чтобы стать профессиональным электриком. Это обучение в большей или меньшей степени состоит из пунктов в ответе Bitwise, из которых статистика является компонентом, но не полностью.

Ответ Пиотра - также хорошее резюме всех вещей, которые я должен сделать, чтобы я знал, как сделать в течение данной недели. Моя работа до сих пор в основном помогала устранить ущерб, нанесенный бывшими сотрудниками, которые принадлежали к компоненту «Опасная зона» диаграммы Венна.


2
+1. Я думаю, что очень ценно в этой теме слышать от людей, которые на самом деле работают в качестве "ученых данных".
амеба

(+1) @amoeba Я согласен на 100% с твоими чувствами.
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@ пещерный человек, я определенно согласен.
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Я также недавно заинтересовался наукой данных как карьерой, и когда я думаю о том, что я узнал о работе по науке данных в сравнении с многочисленными статистическими курсами, которые я проходил (и получал удовольствие!), Я начал думать о специалистах по данным как компьютерные ученые, которые обратили свое внимание на данные. В частности, я отметил следующие основные отличия. Обратите внимание, что различия появляются настроение. Следующее только отражает мои субъективные впечатления, и я не претендую на общность. Просто мои впечатления!

  1. В статистике вы очень заботитесь о распределениях, вероятностях и логических процедурах (как проводить проверки гипотез, которые лежат в основе распределений и т. Д.). Из того, что я понимаю, наука о данных чаще всего связана с прогнозированием, и беспокойство по поводу выводов в некоторой степени поглощается процедурами из информатики, такими как перекрестная проверка.

  2. В статистических курсах я часто просто создавал свои собственные данные или использовал некоторые готовые данные, которые доступны в довольно чистом формате. Это означает, что он имеет хороший прямоугольный формат, какую-то электронную таблицу Excel или что-то подобное, что хорошо вписывается в оперативную память. Очистка данных, безусловно, необходима, но мне никогда не приходилось иметь дело с «извлечением» данных из Интернета, не говоря уже о базах данных, которые нужно было настроить для хранения того объема данных, который больше не помещается в оперативную память. У меня сложилось впечатление, что этот вычислительный аспект гораздо более доминирует в науке о данных.

  3. Возможно, это отражает мое незнание того, что делают статистики в типичных статистических работах, но до исследования данных я никогда не думал о том, чтобы встроить модели в более крупный продукт. Необходимо было провести анализ, решить статистическую проблему, оценить какой-то параметр, и это все. В науке о данных кажется, что часто (хотя и не всегда) прогностические модели встроены в нечто большее. Например, вы щелкаете где-то, и в течение миллисекунд прогнозирующий алгоритм определит, что будет отображаться в результате. Итак, в то время как в статистике я всегда задавался вопросом «какой параметр мы можем оценить и как мы делаем это элегантно», кажется, что в науке о данных больше внимания уделяется «что мы можем предсказать, что потенциально полезно в продукте данных» ,

Опять же, вышеизложенное не пытается дать общее определение. Я просто указываю на основные различия, которые я воспринимал сам. Я еще не в науке о данных, но я надеюсь перейти в следующем году. В этом смысле возьмите мои два цента здесь с зерном соли.


2

Я говорю, что Data Scientist - это роль, в которой человек создает удобочитаемые результаты для бизнеса, используя методы, чтобы сделать результат статистически достоверным (значимым).

Если какая-либо часть этого определения не соблюдается, мы говорим о разработчике, настоящем ученом / статистике или инженере данных.


2

Мне всегда нравится переходить к сути вопроса.

statistics - science + some computer stuff + hype = data science

1
Это звучит как впечатление, которое я сформировал из «машинного обучения», которое я инкапсулирую как «обучение работе с программным обеспечением без понимания того, как оно на самом деле работает» (несправедливо, конечно, но мы видим много «машинного обучения»). люди, выходящие из школы, которые ничего не понимают, кроме того, что представляют собой параметры настройки различных видов нейронных сетей.)
jbowman

1

Наука данных - это междисциплинарная смесь вывода данных, разработки алгоритмов и технологий для решения аналитически сложных задач. Но из-за нехватки ученых данных карьера в науке о данных может действительно создать многочисленные возможности. Однако организации ищут сертифицированных специалистов из SAS, Совета по науке о данных (DASCA), Hortonworks и т. Д. Надеемся, что это хорошая информация!


1

Специалисты по данным имеют очень хорошие навыки в разработке на Python, MySQL и Java.

У них очень четкое понимание аналитических функций, они отлично разбираются в математике, статистике, интеллектуальном анализе данных, навыках прогнозного анализа, а также действительно хорошо знают языки кодирования, такие как Python и R.

У многих ученых-данных сейчас есть докторская степень. или их степень магистра фактически согласно исследованию только приблизительно 8% имеют просто степень бакалавра, таким образом это намного более глубоко.

Построение статистических моделей, которые принимают решения на основе данных. Каждое решение может быть трудным, например, блокировать отображение страницы, или мягким, например, назначать оценку за вредоносность страницы, которая используется нисходящими системами или людьми.

Проведение экспериментов причинно-следственной связи, которые пытаются приписать первопричину наблюдаемого явления. Это можно сделать, спроектировав эксперименты А / Б или если в эксперименте А / Б невозможно применить эпидемиологический подход к проблеме, например, @ причинная модель Рубина

Выявление новых продуктов или функций, возникающих при раскрытии ценности данных; быть лидером мысли о ценности данных. Хорошим примером этого является функция рекомендаций по продуктам, которую Amazon впервые сделала доступной для массовой аудитории.


1
Ну нет. Я настолько высоко, насколько вы можете попасть в цепочку заданий ученого по данным, и я совсем не знаю Java, а также не очень хорошо разбираюсь в Python, и мои навыки работы с MySQL в лучшем случае носят общий характер. В моей группе есть пара других людей, которые немного знают Python, предпочитают R, и только один человек знает Java, но он в основном программирует на R и C / C ++ (как я.) Три человека знают Python, но на самом деле не знают ни одного язык нижнего уровня. Я не хочу вдаваться в пламенные войны Python v. R или Java v. C / C ++, но это ни в коем случае не тот случай, когда какой-либо из ваших навыков программирования необходим.
jbowman

0

Чтобы ответить на ваш вопрос "Что такое ученый данных?" Может быть, стоит знать о разнице между Data Scientist и Data Mechanic, как отмечено в http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/


1
Чтобы это был полный ответ, выделите основные моменты из статьи в своем ответе, чтобы дать ОП и другим читателям ключевые моменты.
Greenparker,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.