Позвольте мне сначала уточнить, что я начинаю свое путешествие в науку о данных с точки зрения программиста и разработчика базы данных. Я не 10-летний эксперт по науке о данных и не статистический бог. Тем не менее, я работаю исследователем данных и большими наборами данных для компании, которая работает с довольно крупными клиентами по всему миру.
Исходя из моего опыта, специалист по данным использует все инструменты, необходимые для выполнения работы. Excel, R, SAS, Python и другие - все это инструменты в наборе инструментов для хорошего исследователя данных. Лучшие могут использовать самые разнообразные инструменты для анализа и анализа данных.
Поэтому, если вы обнаружите, что сравниваете R с Python, вы, вероятно, делаете все неправильно в мире наук о данных. Хороший ученый использует оба, когда имеет смысл использовать одно поверх другого. Это также относится к Excel.
Я думаю, что довольно сложно найти кого-то, кто будет иметь опыт работы с таким количеством различных инструментов и языков, в то же время преуспевая во всем. Я также думаю, что будет сложно найти специалиста по данным, который мог бы не только программировать сложные алгоритмы, но и знать, как использовать их с точки зрения статистики.
Большинство исследователей данных, с которыми я работал, имеют около 2 разновидностей. Те, которые могут программировать, и те, которые не могут. Я редко работаю с специалистом по данным, который может извлекать данные в Python, манипулировать ими с помощью чего-то вроде Pandas, подбирать модель к данным в R и затем представлять ее руководству в конце недели.
Я имею в виду, я знаю, что они существуют. Я читал много блогов по науке о данных от парней, разрабатывающих веб-скребки, вставляющих их в Hadoop, вытаскивающих их обратно в Python, программирующих сложные вещи и запускающих его через R для загрузки. Они существуют. Они там. Я просто не сталкивался со слишком многими, кто может сделать все это. Может быть, это только моя область, хотя?
Так значит ли это, что мы специализируемся только на одном плохом? Нет. Многие мои друзья специализируются только на одном основном языке и убивают его. Я знаю много данных, ребята, которые знают только R и убивают его. Я также знаю множество людей, которые просто используют Excel для анализа данных, потому что это единственное, что большинство ученых, не связанных с данными, могут открывать и использовать (особенно в компаниях B2B). Вопрос, на который вам действительно нужно ответить, заключается в том, является ли эта вещь единственной, которая вам нужна для этой должности? И самое главное, могут ли они учиться новому?
PS
Наука о данных не ограничивается только «БОЛЬШИМИ ДАННЫМИ» или NoSQL.