Термины туманные, потому что они новые
Находясь в середине поиска работы в области «науки о данных», я думаю, что здесь происходят две вещи. Во-первых, задания являются новыми, и нет определенных определений различных терминов, поэтому обычно не согласовывают соответствие терминов с описаниями должностей. Сравните это с «веб-разработчиком» или «внутренним разработчиком». Это две схожие работы, которые достаточно хорошо согласованы и имеют разные описания.
Во-вторых, многие люди, занимающиеся публикацией вакансий и первичными собеседованиями, не очень хорошо знают, для чего они нанимают. Это особенно верно в случае малых и средних компаний, которые нанимают рекрутеров для поиска кандидатов на них. Именно эти посредники публикуют описания вакансий в CareerBuilder или на любом другом форуме. Это не означает, что многие из них не знают своего дела, многие из них достаточно хорошо осведомлены о компаниях, которые они представляют, и о требованиях на рабочем месте. Но без четко определенных терминов, описывающих различные конкретные должности, часто получаются туманные названия должностей.
Есть три общих подразделения области
По моему опыту, есть три основных раздела «пространства работы» науки о данных.
Во-первых, это разработка математических и вычислительных методов, которые делают возможной науку о данных. Это охватывает такие вещи, как статистические исследования новых методов машинного обучения, внедрение этих методов и создание вычислительной инфраструктуры для использования этих методов в реальном мире. Это отделение, наиболее удаленное от клиента, и наименьшее подразделение. Большая часть этой работы выполняется учеными или исследователями в крупных компаниях (Google, Facebook и т. Д.). Это для таких вещей, как разработка Google TensorFlow, нейронных сетей IBM SPSS или любой другой базы данных больших графов.
Второе подразделение использует базовые инструменты для создания пакетов, специфичных для приложения, для выполнения любого анализа данных. Людей нанимают использовать Python или R или что-то еще для построения возможности анализа на некотором наборе данных. По моему опыту, большая часть этой работы включает в себя «стирку данных», превращение необработанных данных в любой форме в нечто полезное. Другой большой кусок этой работы - создание базы данных; выяснить, как хранить данные таким образом, чтобы к ним можно было получить доступ в любой момент времени, в котором они вам нужны. Эта работа требует не столько использования инструментов, сколько использования существующих баз данных, статистики и библиотек графического анализа для получения некоторых результатов.
Третий отдел производит анализ на основе недавно организованных и доступных данных. Это наиболее ориентированная на клиента сторона, в зависимости от вашей организации. Вы должны произвести анализ, который бизнес-лидеры могут использовать для принятия решений. Это было бы наименее техническим из трех подразделений; на данный момент многие рабочие места являются гибридами между вторым и третьим подразделениями, поскольку наука о данных находится в зачаточном состоянии. Но в будущем я сильно подозреваю, что между этими двумя профессиями будет более четкое разделение: люди получат вторую работу, требующую технического, компьютерного или статистического образования, а эту третью - только общее образование.
В целом, все трое могли бы описать себя как «ученый данных», но только первые двое могли разумно описать себя как «инженер машинного обучения».
Заключение
Пока вам придется самим выяснить, что влечет за собой каждая работа. Моя нынешняя работа наняла меня в качестве «аналитика», чтобы заниматься машинным обучением. Но когда мы приступили к работе, стало очевидно, что база данных компании была недостаточной, и теперь, вероятно, 90% моего времени уходит на работу с базами данных. Мое знакомство с машинным обучением теперь заключается в быстром прохождении материала через любой пакет scikit-learn, который кажется наиболее подходящим, и отправке CSV-файлов аналитикам третьего подразделения для презентации PowerPoint для клиента.
Поле находится в движении. Многие организации пытаются добавить процесс принятия решений по науке о данных к своим процессам, но не понимают, что это означает. Это не их вина, довольно сложно предсказать будущее, и последствия новой технологии никогда не бывают очень ясными. До тех пор, пока поле не станет более определенным, многие рабочие места сами по себе будут такими же туманными, как и термины, используемые для их описания.
Data scientist
звучит как обозначение с небольшой ясностью о том, какой будет реальная работа, в то времяmachine learning engineer
как более конкретный. В первом случае ваша компания поставит перед вами цель, и вам нужно выяснить, какой подход (машинное обучение, обработка изображений, нейронная сеть, нечеткая логика и т. Д.) Вы бы использовали. Во втором случае ваша компания уже сузилась до того, какой подход следует использовать.