О чем это
Знание техник сродни знанию животных в зоопарке - вы можете назвать их, описать их свойства, возможно, идентифицировать их в дикой природе.
Понимание того, когда их использовать, формулирование, построение, тестирование и развертывание рабочих математических моделей в области приложения, избегая при этом ловушек, - это те навыки, которые отличают, на мой взгляд.
Упор следует делать на науку , применяя системный, научный подход к бизнесу, промышленным и коммерческим проблемам. Но для этого требуются навыки, более широкие, чем интеллектуальный анализ данных и машинное обучение, как убедительно утверждает Робин Блур в «A Data Science Rant» .
Так что можно сделать?
Области применения : узнайте о различных областях применения, близких к вашим интересам или интересам вашего работодателя. Область часто менее важна, чем понимание того, как была построена модель и как она использовалась для повышения ценности этой области. Модели, которые успешны в одной области, часто могут быть перенесены и применены к различным областям, которые работают подобным образом.
Соревнования : попробуйте сайт конкурса интеллектуального анализа данных Kaggle , желательно присоединиться к команде других. (Kaggle: платформа для соревнований по прогнозирующему моделированию. Компании, правительства и исследователи представляют наборы данных и проблемы, а лучшие в мире ученые-данные соревнуются за лучшие решения.)
Основы : Есть четыре: (1) прочное обоснование в статистике, (2) достаточно хорошие навыки программирования, (3) понимание того, как структурировать сложные запросы данных, (4) построение моделей данных. Если кто-то слаб, то это важное место для начала.
Несколько цитат на этот счет:
«Я очень рано узнал разницу между знанием названия чего-либо и знанием чего-либо. Вы можете знать имя птицы на всех языках мира, но когда вы закончите, вы абсолютно ничего не узнаете о птице ... Итак, давайте посмотрим на птицу и посмотрим, что она делает - это что имеет значение. '' - Ричард Фейнман, "Создание ученого", стр. 14 в книге "Что тебя волнует, что думают другие люди", 1988
Иметь ввиду:
«Сочетание навыков, необходимых для реализации этих проектов в области науки о данных, редко встречается в одном человеке. Кто-то действительно мог бы получить обширные знания в трех областях: (i) что делает бизнес, (ii) как использовать статистику и (iii) как управлять данными и потоками данных. Если это так, он или она действительно может претендовать на звание бизнес-ученого (иначе говоря, «ученого данных») в данном секторе. Но такие люди почти так же редки, как куриные зубы. '' - Робин Блур, A Data Science Rant , август 2013, Inside Analysis
И наконец:
«Карта - не территория». Альфред Коржибски, 1933, Наука и здравомыслие.
Большинство реальных прикладных задач не доступны только из `` карты ''. Чтобы делать практические вещи с математическим моделированием, нужно быть готовым разбираться в деталях, тонкостях и исключениях. Ничто не может заменить знание территории из первых рук.