Я программист, как мне попасть в область науки о данных?


13

Прежде всего, этот термин звучит так неясно.

В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:

1- Статистика

2- Алгебра

3- Анализ данных

4- Визуализация.

5- Машинное обучение.

Что я знаю до сих пор:

1- программирование на Python 2 - утилизация данных в Python

Можете ли вы, эксперты, наставить меня или предложить план, чтобы освежить и теорию, и практику? Я дал себе около 8 месяцев.


Пожалуйста, будьте конкретны о том, что вы хотите "попасть". Не только поле, но и на каком уровне. Например: «Профессиональный медицинский текстовый шахтер» или «Любитель-астрофизический экзаменатор по вселенной»
Пит

Я готов стать чем-то, что могло бы работать в качестве консультанта или сотрудника, с которым компании могли бы связываться, чтобы копаться в своих данных и получать представление об этом.
Volatil3

(1) курс Эндрю Нг по машинному обучению; (2) курс Ясера Абу-Мостафы «Изучение данных»; Оба доступны (время не включено) и даст вам хороший уровень понимания.
Владислав Довгальец


Термин Data Science очень широк. Возможно, вы могли бы подумать о том, какую работу вы бы хотели и в какой компании хотите работать, увидеть их требования и обязанности. Тогда вы будете знать, соответствует ли работа вашим ожиданиям и разрыву ваших возможностей. Вот требования данных ученого в GOOGLE. ! [Требования Data Scientist от Google ] ( i.stack.imgur.com/5KSN6.png )
октябрь

Ответы:


18

Сосредоточиться меньше на приобретении навыков и больше на приобретении опыта. Попробуйте решить некоторые проблемы и опубликуйте свою работу на github. Вы узнаете больше в процессе и сможете продемонстрировать знания и опыт работодателям, что гораздо более ценно, чем, по-видимому, глубокое понимание темы или теории.

Наука о данных - это довольно загруженная область в наши дни, поэтому я не уверен, какую работу вы конкретно хотите выполнять, но, если учесть, что машинное обучение является ее компонентом, тогда kaggle.com - хорошее место для начала. С точки зрения целей, если вы можете работать с данными в pandas / numpy / scipy, создавать модели в sci-kit learn и создавать несколько симпатичных графиков в seaborn, ggplot или даже matplotlib, то у вас не возникнет проблем с получением работа с точки зрения навыков - особенно если у вас есть примеры кода и примеры, чтобы продемонстрировать свои способности. Если вы застряли, то у stackexchange будет либо ответ, либо вы можете опубликовать вопрос, и вскоре у вас будет ответ. Как только вы зарабатываете на жизнь, вы узнаете еще больше, вероятно, от старшего члена команды, который наставляет вас.

Удачи.


7

Мне нравится курс Беркли по науке о данных, который даст хорошую основу и вкус к науке о данных, после того как я перешел на udacity и coursera и еще много ресурсов. Поэтому, если у вас есть навыки программирования, вам понадобятся математика и статистика, а также много визуализации. Также будет здорово привыкнуть к IPython, потому что важно видеть каждый шаг (визуализировать), как он выполняет, вместо этого писать целый сценарий и тестировать после него (anaconda легко установить и работать с ней). Курс указан ниже: bcourses.berkeley.edu/courses/1267848/wiki также статистика, которую я считаю хорошим бесплатным курсом из SAS: Статистика 1: Введение в ANOVA, регрессия и логистическая регрессия support.sas.com/edu/schedules.html ? ctry = мы & ID = 1979

Начиная с ML рекомендую: www.kaggle.com/c/titanic/details/getting-started-with-python

на левой стороне также для Excel с использованием сводных таблиц и R. DataCamp выпустил учебное пособие о том, как использовать R. После того, как вы выполните эти шаги, больше соревнований в приобретении опыта на Kaggle (недавно выпущен один для классификации преступлений Сан-Франциско) и в конечном итоге удивительные видеоуроки от www.dataschool.io

Надеюсь, это поможет ...


Спасибо за Ваш ответ. Как ты научился?
Volatil3

1
Книги, учебные пособия в Интернете и много практического кода, связанного с игрой с данными. Попробуйте kaggle.com и попробуйте соревнования. Прекрасно начинает изучать ML.
n1tk

и в конечном итоге попытайтесь найти сообщество ученых-данных и принять участие в проектах, вы получите такой большой опыт, которым делитесь в проектах, чему не могут научить никакие книги.
n1tk

Но я не очень хорош в теории, как статистика, математика и т. Д. Я изучал их в дни Uni
Volatil3

В моем конкретном случае я подумывал о том, чтобы вернуться в школу и перейти к аспирантуре по аналитике и науке о данных ... требуя исчисления 1,2, линейная алгебра, числовая линейная алгебра, SAS, R, математика для больших данных, теория графов и многое другое ...
n1tk

5

Не согласен с Дэвидом, настоящим исследователем данных, который является прикладным статистиком, который кодирует и знает, как использовать алгоритмы машинного обучения по правильным причинам. Статистика является основой всей науки о данных. Это «пирог» как таковой. Все остальное просто глазурь.

Вопрос в том, каким ученым данных вы хотите быть? Вы хотите стать хозяином предмета (знание того, как, почему, когда и когда не применять алгоритм или технику) или Kaggle Script Kiddie, используя Scipy и думая, что он Data Scientist?

1 - Статистика

2- все остальное


2
Не уверен, что я понимаю, что вы говорите. Я никогда не говорил, что знание «прикладной статистики» не важно - я просто сделал различие, что получение опыта применения методов более важно, чем получение теоретических знаний о самих методах.
Дэвид

1
Дэвид, это была моя точка зрения. Не имея теоретических знаний о самих методах, мы просто сценаристы. Опыт важен, но это побочный продукт теоретических знаний, а не наоборот.
Скрытая Марковская модель

2
Нет, это не так. Существует огромная разница между прикладным опытом и теоретическими знаниями, часто это разница между тем, что приобретается в промышленности, и в классе. Например, более ценно знать, как эффективно проверить, что модель не подходит, используя такой метод, как перекрестная проверка, чем знать теоретические основы регуляризации. Также, пожалуйста, перестаньте упоминать «сценаристы» - никто не выступает за использование новой и ужасной функциональности kaggle «одним щелчком мыши для отправки».
Дэвид

1
Если то, что вы говорите, является правдой, то почему компании предпочитают кандидатов наук и магистров, а не просто бакалавров? Это потому, что они имеют теоретические знания о методах, которые управляют алгоритмами. Они производители двигателей как таковые. Теоретическое знание - это более глубокое знание. Kaggle - это танк для детей-сценаристов.
Скрытая Марковская модель

1
Хотя я вижу, что вы оба пытаетесь это сделать, я думаю, что это возможно вне контекста. Первоначальный вопрос был: «Как программист может перейти на работу в науке о данных?» Если ответ «бросьте все, потратьте несколько лет, чтобы получить докторскую степень в области статистики, затем сделайте несколько проектов самостоятельно, а затем начните применять», это довольно обременительное препятствие, и вы также можете сказать им, чтобы они не беспокоились на практике. смысл. И наоборот, учитывая количество кандидатов в доктора наук (или даже магистров) и количество людей, ищущих, работодатели могут рассматривать людей, которые могут продемонстрировать опыт работы без степени.
Крисф

4

Если вы хотите быть практичным человеком с истинными знаниями, начните с математики (исчисление, вероятность + стат, линейная алгебра). На каждом этапе старайтесь реализовать все с помощью программирования, для этого хорошо подходит python. Когда у вас будет хорошая площадка, играйте с реальными данными и решайте проблемы

Курсы. Линейная алгебра - edx Laff или кодирование матрицы Stat - edx stat 2x исчисление Баркли - читать ... это просто


2

У Дэвида есть хорошая точка зрения, я бы посоветовал вам сосредоточиться на том, что вас больше интересует. Это единственный способ добиться успеха в любых усилиях. Если вы хотите построить что-то классное, начните с него. Если вы хотите прочитать книгу, это тоже хорошо. Отправная точка не имеет значения. Через несколько дней у вас будет лучшее понимание того, что вы хотите и что делать дальше.


1

Наука о данных настолько широка, что в нее можно попасть разными путями. Обычно он делится на 4 или 5 различных типов, например:

введите описание изображения здесь

Из других постов в этой теме вы могли видеть людей, пришедших из области прикладной статистики (применяя правильный алгоритм), фона программирования (участвуя в Kaggle) и других, применяющих его в бизнес-среде.

Опытные компании могут назвать программиста с перекосами как «Инженер данных». Крупные компании также используют каждый тип для своей команды по науке о данных, поэтому было бы неплохо продемонстрировать хорошие Т-образные навыки.


0

Если вы программист, вы можете начать с классификатора дерева решений, сосредоточиться на понимании математики энтропии и получения информации. Важно понимать, что ML - это просто сжатие данных.

Я очень не согласен с некоторыми другими ответами о ценности практических курсов. Наиболее ценным для ML является математика: теория чисел, линейная алгебра и теория вероятностей.

Если вы не сосредоточитесь на математике, единственное, чему вы научитесь, это то, как использовать какую-то библиотеку для магии, это не машинное обучение и не наука вообще.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.