Нахождение свободно доступных образцов данных


98

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его с живыми данными.

То, что я ищу, это свободно доступный (т.е. не конфиденциальный, не проприетарный) источник данных. Предпочтительно тот, который содержит бимодальные или мультимодальные распределения или, очевидно, состоит из множества подмножеств, которые нельзя легко разделить традиционными способами. Куда мне пойти, чтобы найти такую ​​информацию?



4
Вам может понравиться getthedata.org сайт вопросов и ответов, посвященный поиску наборов данных
Jeromy Anglim

Ответы:



46

Следующий список содержит множество наборов данных, которые могут вас заинтересовать:



17

Всемирный банк предлагает довольно много интересных данных и в последнее время очень активно разрабатывает хороший API для них.

Кроме того, у commugrate проекта есть интересный список доступных.

Для данных, связанных со здоровьем в США, обращайтесь в Склад показателей здоровья .

Блог Дэниэла Лемира указывает на несколько интересных примеров (в основном предназначенных для исследования БД), включая канадскую перепись 1880 года и отчеты по синоптическим облакам .

И на сегодня (03/04/2012) также доступны для загрузки записи переписей США 1940 года .


2
Всемирный банк делает еще одну милю с открытыми данными и картами для Статы и Р.
о.

13

У Gapminder есть несколько (430 на последний взгляд) наборов данных, которые могут вам пригодиться или не быть полезными.


11

MLComp имеет довольно много интересных наборов данных, и в качестве бонуса ваш алгоритм будет ранжироваться, если вы загрузите его.


10

Хорошее место для поиска - Библиотека данных и истории Университета Карнеги-Меллона, или DASL , которая содержит файлы данных, "иллюстрирующие использование основных методов статистики ... Хороший пример может сделать урок по конкретному методу статистики ярким и актуальным. DASL - это разработан, чтобы помочь учителям находить и идентифицировать файлы данных для обучения. Мы надеемся, что DASL также послужит архивом для наборов данных из статистической литературы ».


9

Запустите R и введите data(). Это покажет все наборы данных в пути поиска. Многие дополнительные наборы данных доступны в дополнительных пакетах. Например, в AERпакете есть несколько интересных реальных наборов данных по общественным наукам .




5

В сети Stack Exchange появился новый сайт - « Открытые данные» (бета-версия от 5 марта 2015 г.), посвященный данным. Он описывает себя как:

Open Data Stack Exchange - сайт вопросов и ответов для разработчиков и исследователей, заинтересованных в открытых данных. Он создан и поддерживается вами как часть сети вопросов и ответов Stack Exchange. С вашей помощью мы работаем вместе, чтобы создать библиотеку подробных ответов на каждый вопрос об открытых данных.

«Открытые данные» относятся к наборам данных, которые «свободно доступны каждому для использования и повторной публикации по своему усмотрению, без ограничений со стороны авторского права, патентов или других механизмов контроля» ( Википедия ). Однако сайт, кажется, поддается запросам на закрытые наборы данных .



3

Добавление пары в список:

  • Множество подробных финансовых данных о публичных компаниях за многие десятилетия: http://www.mergent.com/servius

  • Богатая информация о более чем 16 миллионах предприятий в США: http://compass.webservius.com

Оба доступны через REST API и имеют бесплатные пробные планы.






2

В поисках подходящего набора данных для моих нужд я только что наткнулся на два сайта, которые имеют отношение к этой дискуссии.

Datacite.org, который описывает себя как ...

Мы являемся международной организацией, которая стремится:

  • облегчить доступ к данным исследований
  • повысить признание научных данных в качестве законного вклада в научные записи, а также
  • поддерживать архивирование данных, чтобы результаты могли быть проверены и переориентированы для дальнейшего изучения.

DataBib.org, который описывает себя как ...

Databib - это инструмент, помогающий людям определять и находить онлайн-хранилища данных исследований. Пользователи и библиографы создают и курируют записи, описывающие хранилища данных, которые пользователи могут искать.

Думал, что стоит добавить его в список здесь для других.

Теперь, чтобы найти что-то в его ссылках, что соответствует моим потребностям!


2

Я настоятельно рекомендую проверить quandl.com . Это мечта программистов данных. Он предоставляет один очень простой API для доступа к любой из более чем 10 миллионов различных областей данных. Вы ищете бимодальные или многовариантные данные, поэтому я бы посоветовал проверить различные наборы данных о населении, например, эта диаграмма мирового населения содержит страны и территории подкомпонентов, которые входят в общую сумму.


1
Некоторые данные quandl бесплатны, некоторые «Премиум», т.е. стоят $$. Кроме того, моя мечта об API включает в себя временные ряды, ноли и сетевые сюжеты (я хочу пони).
Денис


1

Использование во времени

Доступна для загрузки очень большая электронная таблица Excel, содержащая точки данных для всех онлайн-действий, с демографической статистикой пользователя, с течением времени. Пожалуйста, прочитайте лист подсказок (ниже) перед загрузкой или использованием этой таблицы.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.