Какой объем данных является работой ученого по обработке данных?


44

В настоящее время я работаю специалистом по обработке данных в розничной компании (моя первая работа в DS, поэтому этот вопрос может быть результатом моего отсутствия опыта). У них огромное количество действительно важных проектов в области науки о данных, которые могут оказать большое положительное влияние в случае их реализации. Но.

В компании отсутствуют конвейеры данных, стандартная процедура для них - передавать мне гигабайты TXT-файлов всякий раз, когда мне нужна некоторая информация. Думайте об этих файлах как о табличных журналах транзакций, хранящихся в загадочной нотации и структуре. В одном источнике данных нет цельной информации, и они не могут предоставить мне доступ к своей базе данных ERP по «соображениям безопасности».

Первоначальный анализ данных для самого простого проекта требует жестокой, мучительной обработки данных. Более 80% времени, затрачиваемого на проект, я пытаюсь проанализировать эти файлы и перебрать источники данных для создания жизнеспособных наборов данных. Это не проблема простой обработки пропущенных данных или их предварительной обработки, речь идет о работе, которая требуется для создания данных, которые могут быть обработаны в первую очередь ( решается с помощью dba или инженерии данных, а не науки данных? ).


1) Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно?

2) Я знаю, что это не компания, управляемая данными, с высокоуровневым отделом инженерии данных, но я считаю, что для обеспечения устойчивого будущего проектов по науке о данных требуются минимальные уровни доступности данных . Я ошибся?

3) Является ли этот тип установки общим для компании с серьезными потребностями в науке о данных?


Вы указали, в каком формате вы хотите получить информацию? И дать им инструкции о том, как они могут сделать это с помощью ERP?
Джоннор

@jonnor Конечно. Я работаю здесь уже почти два года, и с первого дня я объяснил, как мы можем создать лучшую платформу для доступности данных. Однако существует сильное сопротивление изменению того, что компания делает в течение 30 лет.
Виктор Валенте

13
Начните отслеживать свои часы и пересчитайте их в стоимость, показывающую, сколько они тратят ваше время на преобразование TXT в пригодный для использования формат. Бьюсь об заклад, как только у них будет фигура в $, они могут это сделать.
Нельсон

Если это бремя вашего времени, вы можете отдать его на аутсорсинг.
саркома

Меня сбивает с толку то, что компания нанимает Data Scientist и все еще будет сопротивляться изменениям. Вы должны показать им количество потерянного времени и опасность хранения данных в длинных TXT-файлах без реальной защиты вокруг них
Педро Энрике Монфорте

Ответы:


27
  1. Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно?

    да

  2. Я знаю, что это не компания, управляемая данными, с высокоуровневым отделом разработки данных, но я считаю, что наука о данных требует минимального уровня доступности данных. Я ошибся?

    Вы не ошиблись, но таковы реалии реальной жизни.

  3. Является ли этот тип установки общим для компании с серьезными потребностями в науке о данных?

    да

С технической точки зрения вам необходимо изучить решения ETL, которые могут сделать вашу жизнь проще. Иногда один инструмент может быть намного быстрее, чем другой, чтобы прочитать определенные данные. Например, readxl R на несколько порядков быстрее панда питона при чтении файлов xlsx; Вы можете использовать R для импорта файлов, а затем сохранить их в удобном для Python формате (паркет, SQL и т. д.). Я знаю, что вы не работаете с файлами xlsx, и я понятия не имею, используете ли вы Python - это был просто пример.

С практической точки зрения, две вещи:

  • Прежде всего, понять, что технически возможно. Во многих случаях люди, которые говорят вам, - это неграмотные ИТ-специалисты, которые беспокоятся о проблемах бизнеса или соблюдения нормативных требований, но не имеют понятия о том, что является и что невозможно с точки зрения ИТ. Попробуйте поговорить с администраторами баз данных или с теми, кто управляет инфраструктурой данных. Понять, что технически возможно. ПОТОМ, только тогда попытайтесь найти компромисс. Например, они не дадут вам доступ к своей системе, но я предполагаю, что за этим стоит база данных? Может быть, они могут извлечь данные в некоторые другие форматы? Может быть, они могут извлечь операторы SQL, которые определяют типы данных и т. Д.?

  • Деловые люди с большей вероятностью помогут вам, если вы сможете доказать, что это отвечает их интересам. Если они даже не верят в то, что ты делаешь, неудача ...


2
Отличное замечание о поиске / создании решения ETL. Просто нужно добавить: выберите настройку, которая вам удобна и легко читается / отлаживается. На ранних этапах автоматизации задач это даже важнее, чем найти самый быстрый инструмент для обработки данных. Если это текстовые выступления, они, скорее всего, будут проходить быстро, и ваше свободное владение инструментом / структурой / языком может иметь значение для пробуждения к хорошим данным или к чему-то, что вы должны начать заново. Всего лишь одна переработка может стереть любые преимущества эффективности. Лучше быть устойчивым с меньшим количеством ошибок, чем идти быстро и спотыкаться.
Джейсон

2
Правда. Но, также, не переоптимизируйте. Выберите свои приоритеты с умом. Если импорт данных одноразовый, не тратьте дни на поиски того, как сократить время импорта с 2 часов до 30 минут. И т.д.
PythonGuest

39

Это ситуация, которую многие блоги, компании и газеты признают чем-то реальным во многих случаях.

В этой статье « Обработка данных для больших данных: проблемы и возможности» есть цитата об этом

Ученые данных тратят от 50 до 80 процентов своего времени

сбор и подготовка непослушных цифровых данных.

Кроме того, вы можете прочитать источник этой цитаты в этой статье из Нью-Йорк Таймс, для ученых, работающих с большими данными, «работа уборщика» является ключевым препятствием для понимания

К сожалению, реальный мир не похож на Kaggle. Вы не получите файл CSV или Excel, который можно просто запустить Data Exploration с небольшой очисткой. Вам нужно найти данные в формате, который не подходит для ваших нужд.

Что вы можете сделать, так это максимально использовать старые данные и попытаться адаптировать хранение новых данных в процессе, с которым вам (или будущему коллеге) будет легче работать.



4
Forbes нигде не следует упоминать вместе со словами «наука о данных».
gented

50-80% на основе (цитата) "интервью и экспертных оценок"
oW_

3
@gented Комментарий, основанный на мнении об опросе, основанном на мнении, в статье, основанной на мнении, размещенной на основе ответа на вопрос, основанный на мнении. Кто бы мог подумать, что вы найдете это в "Data Science" SE?
Keeta

25

Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно?

Это реальность любого проекта науки о данных. Google фактически измерил это и опубликовал статью «Скрытый технический долг в системах машинного обучения» https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

введите описание изображения здесь

Результат статьи также отражает мой опыт. Подавляющее большинство времени уходит на сбор, очистку и обработку данных.


7
  1. Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно?

    Спорные данные наиболее точно описаны в описании работы Data Scientist. На каком-то уровне вы должны понимать процесс генерации данных, чтобы использовать его для разработки решений. Конечно, кто-то, специализирующийся на ETL, мог бы сделать это быстрее / эффективнее, но в реальном мире получение дампов данных не редкость. Если вам не нравится этот аспект науки о данных, может быть возможность более тесно сотрудничать с ИТ-ресурсами, чтобы правильно доставлять данные в хранилище, к которому у вас есть доступ. Кроме того, вы можете найти работу, которая уже имеет данные в лучшем порядке.

  2. Я знаю, что это не компания, управляемая данными, с высокоуровневым отделом разработки данных, но я считаю, что наука о данных требует минимального уровня доступности данных. Я ошибся?

    Я думаю, что минимальный уровень текстовых файлов. Если у вас есть доступ к данным через текстовые файлы, у вас должен быть доступ к данным в базе данных (отодвиньте это с начальством).

  3. Является ли этот тип установки общим для компании с серьезными потребностями в науке о данных?

    Да. Вы ДАННЫЙ УЧЕНЫЙ; Вы эксперт. Ваша задача - рассказать другим о неэффективности текущей структуры данных и о том, как вы можете помочь. Данные, которые нельзя использовать, никому не помогают. У вас есть возможность сделать вещи лучше и сформировать будущее компании.


6

Как еще один новичок в области Data Science, я могу только добавить, что я не думаю, что ваш опыт уникален, моя команда из 10 человек, очевидно, не делала DS больше года (один небольшой проект, который занимал 2 из команда). Это связано с обещанием эффективного конвейера, над которым работала команда, но все еще не совсем доставляющего данные. Очевидно, что в прошлом срок хранения был довольно низким, и для будущих проектов DS существует постоянная перспектива использования среды MS Azure со святым Граалем.

Итак, чтобы ответить:

1) Да, абсолютно точно

2) Нет, вы правы, но получить доступ к нужным данным (если они вообще существуют) - непростая задача.

3) Я уверен, что есть компании, которые лучше, чем другие. Если вы не можете выдержать это в вашей нынешней компании, 2 года - это приличный промежуток времени, начните искать более яркие вещи (будьте осторожны, когда вы формулируете свое желание оставить свою текущую работу, что-то вроде «стремления работать с более динамичным»). команда "звучит лучше, чем" моя старая компания не даст мне данных ").


5

Если вы посмотрите на это с точки зрения «это не моя работа, так зачем мне это делать», то это довольно распространенная общая проблема, не относящаяся к науке о данных. В конечном счете, ваша работа заключается в том, чтобы делать то, что говорит вам босс, но на практике у босса мало причин для диктатуры, и обычно их можно убедить. Или, по крайней мере, они дадут вам искреннее объяснение того, почему так должно быть. Но что касается обращения к авторитету, не существует официального определения «Data Science», которое гласит, что вы можете выполнить очистку данных не более чем на X%. Власть - это тот, кто платит вам, если у него есть законное право прекратить платить вам.

Вы также можете взглянуть на это с другой точки зрения: это хорошее использование вашего времени? Звучит так, как будто вы взялись за работу, чтобы выполнить некоторые задачи (которые вы подразумеваете под «наукой о данных»), но вам приходится делать другую вещь (которую вы называете «обработкой данных»). Описания работы и личные ощущения здесь немного отстают, потому что есть нечто более уместное: компания, по-видимому, платит вам хорошую сумму за то, что может сделать только вы (наука о данных). Но вместо этого вам нужно делать другие вещи, что могут делать другие люди, которые представляют собой комбинацию более способных, более мотивированных или менее дорогих. Если кто-то, получающий половину вашей зарплаты, может ссориться, тогда нет смысла платить вам вдвое больше за одно и то же. Если бы это можно было сделать быстрееесли кто-то платит одинаковую зарплату, применяется та же логика. Поэтому, чтобы компания возложила на вас эту задачу, это пустая трата ресурсов (особенно денег). Если взглянуть на это с этой точки зрения, вам может показаться, что начальству будет проще увидеть вашу сторону вещей.

Конечно, в конце концов, кто-то должен разобраться с данными. Может случиться так, что самый дешевый, быстрый и простой способ сделать это - лучший человек для работы, это вы. В этом случае вам не повезло. Вы могли бы попытаться заявить, что это не является частью вашего контракта, но каковы шансы, что они были достаточно наивны, чтобы добавить что-то конкретное в контракт?


3

Возможно, проще говоря:

  • Создавая переменные и объединяя числа, вы будете делать это вслепую или после анализа ваших данных?
  • Когда сверстники проверяют ваши выводы, если у них есть вопросы по конкретным частям данных, смущает ли вас их не знать?

Вам нужно работать с вашими данными и понимать их - что включает в себя простые вещи - от исправления несоответствий (NULL, пустых строк, "-") до понимания того, как часть данных переходит от собранной к отображению. Обработка включает в себя знание одних и тех же фрагментов информации, так что это часть работы, которую вам пришлось бы делать в любом случае.

Похоже, что эта компания может выиграть от создания своего рода бесплатного экземпляра MySQL (или аналогичного) для хранения ваших данных. Хорошей идеей является попытка проявить гибкость при разработке кода для споров - иметь промежуточный набор данных обработанных данных, я думаю, было бы полезно, если вам позволено (и вы не можете сделать это в MySQL).

Но, конечно, вы все еще настраиваете все с нуля. Это не простой процесс, но этот «опыт обучения», по крайней мере, хорош для включения в ваше резюме.


3

1) Чувствуется, что большая часть работы вообще не связана с наукой о данных. Это точно? На мой взгляд, Data Science не может вырваться из споров о данных. Но, как вы сказали, возникнет вопрос о том, какой процент Data Wrangling требуется от Data Scientist. Это зависит от пропускной способности Организации и заинтересованности человека в выполнении такой работы. В моем опыте работы в DS от 15 до 16 лет я всегда тратил от 60% до 70% на работу по обработке данных и максимум 15% времени проводил в реальном анализе. так что ответь на звонок.

2) Я знаю, что это не управляемая данными компания с высокоуровневым отделом разработки данных, но я считаю, что наука о данных требует минимального уровня доступности данных. Я ошибся? Опять же, это зависит от политик безопасности организации. Они не могут оставить все вам, и у них есть свои проблемы с безопасностью, чтобы раскрыть данные человеку, который является временным сотрудником (извините, используйте эти слова :-()

3) Является ли этот тип установки общим для компании с серьезными потребностями в науке о данных? Я чувствую, что такого рода компании требуют наибольшего внимания со стороны ученых-исследователей, чтобы понять, что моделирование на основе данных - это будущее для поддержания их бизнеса. :-)

Я сделал свой вклад в мышление бизнеса вместо технических точек зрения. :-) Надеюсь, я ясен в выборе слов.


3

В своем выступлении «Большие данные - это четыре разные проблемы», лауреат премии Тьюринга Майкл Стоунбрейкер упоминает эту конкретную проблему как большую проблему ( видео , слайды )

Он говорит, что в этой области существует ряд открытых проблем: Ingest, Transform (например, евро / доллар), Clean (например, -99 / Null), отображение схемы (например, заработная плата), консолидация сущностей (например, Майк Стоунбрейкер / Майкл Stonebreaker)

Есть ряд компаний / продуктов, пытающихся решить эту проблему, таких как Tamr, Alteryx, Trifacta, Paxata, Google Refine, которые работают над решением этой проблемы.

До тех пор, пока эта область не станет зрелой, большая часть работы в области данных действительно будет спорением данных.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.