Статистика + Информатика = Наука о данных? [закрыто]


10

Я хочу стать специалистом по данным . Я изучал прикладную статистику (актуарная наука), поэтому у меня большой статистический фон (регрессия, случайный процесс, временные ряды, и это лишь некоторые из них). Но сейчас я собираюсь получить степень магистра в области компьютерных наук в области интеллектуальных систем.

Вот мой учебный план:

  • Машинное обучение
  • Продвинутое машинное обучение
  • Сбор данных
  • Нечеткая логика
  • Рекомендации системы
  • Распределенные системы данных
  • Облачные вычисления
  • Открытие знаний
  • Бизнес-аналитика
  • Поиск информации
  • Добыча текста

В конце концов, со всеми моими знаниями в области статистики и информатики, могу ли я назвать себя специалистом по данным? или я не прав?

Спасибо за ответы.



Этот вопрос, кажется, не по теме, потому что речь идет о профориентации. Доказано, что советы по профориентации приводят к ориентированным на мнение, широким вопросам или иногда чрезвычайно ограниченным вопросам, большинство из которых не приводит к полезному обсуждению. Если вы не согласны с этим мнением, пожалуйста, поднимите вопрос о Data Science Meta .
asheeshr

В двух словах нет. Данные + Научный метод = Наука о данных :-). Все остальное - только методология, чтобы добраться туда
I_Play_With_Data

Ответы:


1

Я думаю, что вы на правильном пути, чтобы стать экспертом в области данных . Недавно я ответил связанный с этим вопрос здесь Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (обратите внимание на определение я упоминаю здесь, так как она по существу отвечает на ваш вопрос сам по себе, а также к аспекты практики разработки программного обеспечения и применения знаний для решения реальных проблем). Я надеюсь, что вы найдете все это полезным. Удачи в вашей карьере!


9

Ну, это зависит от того, в какую «науку о данных» вы хотите попасть. Для базовой аналитики и отчетности статистика, безусловно, поможет, но для машинного обучения и искусственного интеллекта вам понадобится еще несколько навыков.

  • Теория вероятностей - у вас должен быть твердый фон в чистой вероятности, чтобы вы могли разложить любую проблему, независимо от того, видели ли вы ее раньше или нет, на вероятностные принципы. Статистика очень помогает для уже решенных проблем, но новые и нерешенные проблемы требуют глубокого понимания вероятности, чтобы вы могли разработать соответствующие методы.

  • Теория информации - это (по отношению к статистике) довольно новая область (хотя еще десятилетия тому назад), самая важная работа была Шенноном, но еще более важным и часто пренебрегаемым примечанием в литературе является работа Хобсона, которая доказала, что расхождение Кульбака-Лейблера это единственное математическое определение, которое действительно отражает понятие «меры информации» . В настоящее время фундаментальным для искусственного слияния является возможность количественного определения информации. Предлагаю прочитать «Концепции в статистической механике» - Артур Хобсон (очень дорогая книга, доступна только в академических библиотеках).

  • Теория сложности- Большая проблема, с которой сталкиваются многие Data Scientists, не имеющие основательной теории сложности, заключается в том, что их алгоритмы не масштабируются или просто требуют очень много времени для работы с большими данными. Возьмите, например, PCA, любимый ответ многих людей на вопрос интервью «как сократить количество функций в нашем наборе данных», но даже если вы скажете кандидату «набор данных действительно очень большой», они все равно предложат различные формы PCA, которые являются O (n ^ 3). Если вы хотите выделиться, вы хотите быть в состоянии решить каждую проблему самостоятельно, а НЕ бросать какое-либо решение из учебника, разработанное давным-давно, до того, как Big Data стала такой модной вещью. Для этого вам нужно понять, сколько времени потребуется для запуска, не только теоретически, но и практически - так, как использовать кластер компьютеров для распространения алгоритма,

  • Навыки общения - огромная часть Data Science - это понимание бизнеса. Независимо от того, изобретаете ли вы продукт, основанный на науке о данных, или даете бизнес-представление, основанное на науке о данных, очень важно иметь возможность хорошо общаться как с руководителями проектов, так и с менеджерами по продуктам, техническими командами и коллегами-исследователями данных. У вас может быть удивительная идея, скажем, отличное решение для ИИ, но если вы не можете эффективно (а) сообщить, ПОЧЕМУ это принесет бизнесу деньги, (б) убедить ваших коллег, что это сработает, и (в) объяснить техническим специалистам, как вам нужно их помощь, чтобы построить это, тогда это не будет сделано.


6

Данные ученого (для меня) большой общий термин. Я бы видел ученого, работающего с данными, как человека, который может умело использовать методы из областей интеллектуального анализа данных, машинного обучения, классификации шаблонов и статистики.

Однако эти термины переплетаются между собой: машинное обучение связано с классификацией шаблонов, а также интеллектуальным анализом данных, когда речь идет о поиске шаблонов в данных. И все методы имеют свои основные статистические принципы. Я всегда представляю это как диаграмму Венна с огромным пересечением.

Компьютерные науки также связаны со всеми этими областями. Я бы сказал, что вам нужны методы «науки о данных» для проведения компьютерных исследований, но знание информатики не обязательно подразумевает «науку о данных». Однако навыки программирования - я рассматриваю программирование и информатику как разные профессии, где программирование - это больше инструмент для решения проблем - также важны для работы с данными и проведения анализа данных.

У вас действительно хороший учебный план, и все это имеет смысл. Но я не уверен, что если вы «хотите» называть себя просто «ученый данных», у меня сложилось впечатление, что «ученый данных» - это такой неоднозначный термин, который может означать все или ничего. Я хочу сказать, что в конечном итоге вы станете чем-то более "специализированным", чем "просто" специалистом по данным.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.