Я R
программист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS.
Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру R
и имея только базовые знания других скриптовых / веб-языков, я чувствовал себя несколько неадекватно в 2 ключевых областях:
- Отсутствие глубоких знаний теории программирования.
- Отсутствие конкурентного уровня навыков в более быстрых и более широко используемых языках, таких как
C
,C++
иJava
, которые могут быть использованы для увеличения скорости конвейера и вычислений больших данных, а также для создания продуктов DS / данных, которые могут быть более быстро превращены в быстрые серверные скрипты или автономные приложения.
Решение, конечно, простое - изучите программирование, и это то, чем я занимаюсь, записавшись на некоторые классы (в настоящее время программирование на Си).
Однако теперь, когда я начинаю решать проблемы № 1 и № 2 выше, я задаюсь вопросом: « Насколько жизнеспособны такие языки, как C
и C++
для Data Science? ».
Например, я могу очень быстро перемещать данные и отлично взаимодействовать с пользователями, но как насчет расширенной регрессии, машинного обучения, интеллектуального анализа текста и других более сложных статистических операций?
Так. может C
сделать работу - какие инструменты доступны для расширенной статистики, ML, AI и другие области науки данных? Или я должен потерять большую часть эффективности, получаемой при программировании, C
используя R
скрипты или другие языки?
Лучший ресурс, который я нашел до сих пор в C, - это библиотека под названием Shark , которая дает C
/ C++
возможность использовать машины опорных векторов, линейную регрессию (не нелинейную и другие продвинутые регрессии, такие как многочленный пробит и т. Д.) И краткий список других (здорово, но) статистические функции.