Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на этом сайте, кажется, что многие люди в этой области делают несколько повторяющуюся работу. Например, анализ твитов, постов в Facebook, статей в Википедии и т. Д. Является частью большой проблемы с большими данными.
Некоторые из этих наборов данных доступны с помощью общедоступных API, предоставляемых сайтом провайдера, но обычно в этих API отсутствует какая-либо ценная информация или показатели, и каждый должен делать один и тот же анализ снова и снова. Например, хотя кластеризация пользователей может зависеть от разных вариантов использования и выбора функций, но наличие базовой кластеризации пользователей Twitter / Facebook может быть полезным во многих приложениях больших данных, которые не предоставляются API и не доступны публично в независимых наборах данных. ,
Существует ли какой-либо индекс или общедоступный сайт размещения наборов данных, содержащий ценные наборы данных, которые можно повторно использовать для решения других проблем с большими данными? Я имею в виду что-то вроде GitHub (или группу сайтов / общедоступных наборов данных или хотя бы полный список) для науки о данных. Если нет, то каковы причины отсутствия такой платформы для науки о данных? Коммерческая ценность данных, необходимо часто обновлять наборы данных, ...? Разве у нас не может быть модели с открытым исходным кодом для обмена наборами данных, разработанной для ученых данных?