Наборы данных для примеров визуализации данных, обучения и исследований


9

Я ищу существующие наборы данных, которые мы можем использовать для тестирования нескольких методов данных, которые мы исследуем.

Я знаю несколько ресурсов, подобных тем, которые включены в R (попробуйте plot(Orange)или посмотрите здесь ).

Но я бы хотел сделать шаг вперед:

  • Каковы лучшие наборы данных для тестирования инструмента визуализации?
  • Какие наборы данных вы использовали в научных статьях или учебных слайдах о датависах?
  • Какой лучший пример из реального мира демонстрирует преимущества графиков?

2
Много хороших примеров из реальной жизни, с некоторыми из связанных проектов, предоставляющих наборы данных (но, к сожалению, большинство из них не предоставляют): infosthetics.com
WSkid

1
Вы явно ищете бесплатные наборы данных?
Fomite

3
Визуализация зависит от контекста и аудитории (среди прочего), предполагая, что «лучший» в этом контексте неоднозначен. Вы можете получить более сфокусированные, уместные ответы, указав, какие «методы» вы исследуете.
whuber

1
@whuber Techniques, об автоматизации визуализации. Лучше всего, для объяснения. Лучше всего, для сравнения.
Роберморалес

@EpiGrad Да, максимально бесплатно.
Роберморалес

Ответы:


5

В интернете доступно большое количество баз данных. В зависимости от предмета вы можете получить разные источники.

Например, в предметной области «Человеческое развитие» вы можете иметь источники данных по адресу (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Для наблюдения за изменением климата существует веб-сайт с климатическими данными высокого разрешения по адресу (http://www.ipcc-data.org/), например:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Оба примера содержат реальные данные, используемые в опубликованных научных работах, с большим количеством данных. Данные, связанные со временем и / или пространством. Возможности визуализации этих данных безграничны.


Какой из возможных наборов данных из этих великолепных источников вам нравится больше всего? спасибо
Роберморалес

1
Это зависит от пригодности для «вкуса» визуализации. Например, чтобы исследовать / показать временные ряды, сеть МГЭИК имеет достаточно данных и широко используется (очевидно, для анализа изменения климата), чтобы показать пространственные данные, веб-сайт человеческого развития содержит много связанных с космосом данных, а также данных, связанных с время.
Хосе Зубкофф

Ваша первая ссылка не работает (ошибка DNS).
horaceT

К сожалению, первая ссылка не работает (5 лет спустя), но есть много открытых данных: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Зубкофф

9

Мне нравится использовать наборы данных Anscombe (также доступны в R), чтобы показать важность построения графиков при выполнении регрессий. Если вы не знакомы, вы получаете одну и ту же линию регрессии и диагностику из всех четырех наборов данных, хотя сами наборы выглядят совершенно по-разному. Вы можете взять графики ниже и превратить их в остаточные графики, чтобы проиллюстрировать проблемы, которые вы можете искать в остатках после выполнения регрессии.

Анскомб наборы данных


Да, мы знали, что наборы данных. Это хорошая отправная точка.
Роберморалес

Основная проблема заключается в том, что это не набор данных реального мира.
Роберморалес

3
@robermorales, Достаточно справедливо, но я думаю, что, увидев «чистую» версию проблемы, легче понять более сложные, реальные визуализации / проблемы.
Чарли

6

Какой лучший пример из реального мира, чтобы показать преимущества графиков?

Любой большой стол. Для примера, Google изображения "официальной таблицы переписи". Вы увидите такие вещи, как ниже .

Также посмотрите на Gelman et al. (2002) Давайте практиковать то, что проповедуем: превращение таблиц в графики. Американский статистик 56: 121-130

огромный сложный стол


хороший совет! Мы не знаем реф.
Роберморалес

4

У Уильяма С. Кливленда есть две книги, полные отличного использования графики, а данные и код для создания графиков в разделе «Визуализация данных» находятся на его веб-сайте.


Какой из наборов данных Кливленда вам нравится больше? спасибо
Роберморалес

1
@robertomorales Я думаю, что они все выбраны для своих целей. Любой, кто интересуется статистической графикой, должен внимательно изучить Кливленд.
Питер Флом

1
Данные для визуализации данных можно найти по адресу lib.stat.cmu.edu/datasets/visualizing.data.zip. Я больше не могу их найти на собственном веб-сайте Cleveland.
Ник Кокс

4

Возможно, вы уже знаете об этом, но вот они в любом случае:

UCI Machine Learning инструмента для репозиции у имеет множество общедоступных, реальные наборов данных.

Правительство США публикует многие из своих наборов данных на data.gov .

Если вам нужны сложные данные визуализации, я бы посоветовал взглянуть на задачу классификации. Мне кажется, что пакет слов, установленный на UCI MLR, обладает некоторыми хорошими свойствами, но я могу ошибаться (с тех пор, как я его использовал), это было давно.


Спасибо! Их много !
Роберморалес

3

Вот несколько

Образцы наборов данных Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Образцы наборов данных, которые поставляются в комплекте с Sci2 Tool.

Табличные образцы наборов данных
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Примерные наборы данных для начала работы с Tableau.

Удивительные общедоступные наборы данных
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Этот список общедоступных источников данных собирается и приводится в блогах, ответах и ​​ответах пользователей. Большинство наборов данных бесплатны, некоторые нет.

Эта ветка довольно старая, надеясь, что этот удар получит новый вклад!


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.