В настоящее время я работаю специалистом по обработке данных в розничной компании (моя первая работа в DS, поэтому этот вопрос может быть результатом моего отсутствия опыта). У них огромное количество действительно важных проектов в области науки о данных, которые могут оказать большое положительное влияние в случае их реализации. Но.
В компании отсутствуют конвейеры данных, стандартная процедура для них - передавать мне гигабайты TXT-файлов всякий раз, когда мне нужна некоторая информация. Думайте об этих файлах как о табличных журналах транзакций, хранящихся в загадочной нотации и структуре. В одном источнике данных нет цельной информации, и они не могут предоставить мне доступ к своей базе данных ERP по «соображениям безопасности».
Первоначальный анализ данных для самого простого проекта требует жестокой, мучительной обработки данных. Более 80% времени, затрачиваемого на проект, я пытаюсь проанализировать эти файлы и перебрать источники данных для создания жизнеспособных наборов данных. Это не проблема простой обработки пропущенных данных или их предварительной обработки, речь идет о работе, которая требуется для создания данных, которые могут быть обработаны в первую очередь ( решается с помощью dba или инженерии данных, а не науки данных? ).
1) Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно?
2) Я знаю, что это не компания, управляемая данными, с высокоуровневым отделом инженерии данных, но я считаю, что для обеспечения устойчивого будущего проектов по науке о данных требуются минимальные уровни доступности данных . Я ошибся?
3) Является ли этот тип установки общим для компании с серьезными потребностями в науке о данных?