Когда полезна интерактивная визуализация данных?


17

Готовясь к выступлению, которое я скоро дам, я недавно начал копаться в двух основных (бесплатных) инструментах для интерактивной визуализации данных: GGobi и mondrian - оба предлагают широкий спектр возможностей (даже если они немного глючат).

Я хочу попросить вас помочь в формулировании (как для себя, так и для моей будущей аудитории). Когда полезно использовать интерактивные сюжеты? Или для исследования данных (для нас самих) и представления данных (для «клиента»)?

Поскольку при объяснении данных клиенту я вижу значение анимации для:

  • Использование «идентификации / связывания / чистки» для определения того, какая точка данных на графике является чем.
  • Представление анализа чувствительности данных (например: «если мы удалим эту точку, вот что мы получим)
  • Показывает влияние различных групп в данных (например: «давайте посмотрим на наши графики для мужчин, а теперь для женщин»)
  • Показывает влияние времени (или возраста, или вообще предлагает другое измерение для презентации)

Поскольку при исследовании самих данных я могу видеть значение идентификации / связывания / чистки при исследовании выбросов в наборе данных, над которым мы работаем.

Но кроме этих двух примеров, я не уверен, какое другое практическое использование предлагают эти методы. Специально для нашего собственного исследования данных!

Можно утверждать, что интерактивная часть хороша для изучения (например) различного поведения различных групп / кластеров в данных. Но когда (на практике) я подошел к такой ситуации, я хотел выполнить соответствующие статистические процедуры (и специальные тесты) - и то, что я нашел значимым, я бы тогда нарисовал с помощью цветов, четко разделяющих данные на соответствующие группы. Из того, что я видел, это более безопасный подход, чем «размышлять» о данных (что может легко привести к углублению данных (если область многократного сравнения, необходимого для исправления, даже не ясна).

Я был бы очень рад прочитать ваш опыт / мысли по этому вопросу.

(этот вопрос может быть вики - хотя он не субъективен и хорошо продуманный ответ с радостью выиграет мою оценку «ответ» :))


3
По крайней мере, в моем случае я несколько в одной лодке. Я ценю Мондриана и поддерживаю его в актуальном состоянии, но когда я на самом деле исследую новый набор данных, он, как правило, находится в R, который менее интерактивен, но в целом более гибок. Я начал писать вам полный ответ и понял, что я говорю теоретически, а не из реального опыта.
Уэйн

Ответы:


8

В дополнение к привязке количественных или качественных данных к пространственным закономерностям, как показано на @whuber, я хотел бы упомянуть использование EDA с чисткой и различными связывающими графиками для анализа продольных и многомерных данных.

Обе они обсуждаются в превосходной книге « Интерактивная и динамическая графика для анализа данных с помощью R и GGobi » Дайан Кук и Деборы Ф. Суэйн (Springer UseR !, 2007), которую вы наверняка знаете. Авторы хорошо обсуждают ЭДА в главе 1, обосновывая необходимость того, чтобы ЭДА «навязывала нам неожиданное», цитируя Джона Тьюки (стр. 13): использование интерактивных и динамических дисплеев не является ни отслеживанием , ни предварительными данными. проверка (например, чисто графические сводки данных), но это просто рассматривается как интерактивное исследование данных, которое может предшествовать или дополнять чисто статистическое моделирование на основе гипотез.

Использование GGobi вместе с его интерфейсом R ( rggobi ) также решает проблему создания статической графики для промежуточного отчета или окончательной публикации, даже с помощью Projection Pursuit (стр. 26-34), благодаря пакетам DescribeDisplay или ggplot2 .

В той же строке Майкл Френдли уже давно выступает за использование визуализации данных в Категориальном анализе данных, что в значительной степени иллюстрируется пакетом vcd , но также и более поздним пакетом vcdExtra (в том числе динамическим, а именно пакетом rgl ), который действует как клей между VcD и ГНС пакетов для расширения лог-линейной модели. Недавно он дал хорошее резюме этой работы во время 6-й конференции CARME , « Достижения в визуализации категориальных данных с использованием пакетов vcd, gnm и vcdExtra в R» .

Следовательно, EDA также может рассматриваться как обеспечивающее визуальное объяснение данных (в том смысле, что оно может учитывать непредвиденные закономерности в наблюдаемых данных), до подхода чисто статистического моделирования или параллельно с ним. Таким образом, EDA не только предоставляет полезные способы для изучения внутренней структуры данных, но также может помочь уточнить и / или обобщить статистические модели, применяемые к ним. Это, по сути, то, что позволяют делать, например, болты . Хотя они не являются многомерными методами анализа сами по себе , они являются инструментами для визуализации результатов многомерного анализа (путем приближенияотношений при рассмотрении всех людей вместе, или все переменные вместе, или оба). Факторные оценки могут использоваться в последующем моделировании вместо исходной метрики, чтобы либо уменьшить размерность, либо обеспечить промежуточные уровни представления.

Примечание

Риск быть старомодным, я все еще использую xlispstat( Люк Тирни ) время от времени. Он имеет простые, но эффективные функциональные возможности для интерактивных дисплеев, которые в настоящее время недоступны для базовой графики R. Мне не известны подобные возможности в Clojure + Incanter (+ Processing).


8

Динамическое связывание графики является естественным и эффективным для исследовательского анализа пространственных данных или ESDA . Системы ESDA обычно связывают одну или несколько количественных карт (таких как карты хороплетов ) с табличными представлениями и статистическими графиками базовых данных. Некоторые такие возможности были частью некоторых настольных ГИС-систем на протяжении 15 лет, в частности ArcView 3 (более не выпускаемый коммерческий продукт). Бесплатное программное обеспечение GeoDa предоставляет некоторые из этих возможностей в среде, предназначенной для исследования пространственных данных и статистического анализа. Это неуклюжий, с уникальным интерфейсом и неполированной графикой, но без ошибок.

Такое использование EDA позволяет обойти возражение о том, что статистическое тестирование может быть лучше, чем интерактивное исследование, поскольку во многих (большинстве?) Ситуациях нет четкой статистической модели, нет очевидного (или даже подходящего) статистического теста, а проверка гипотез часто не имеет значения: люди должны видеть, что происходит , где это происходит , и наблюдать статистические отношения между переменными в пространственном контексте. Не весь анализ данных является или даже должен состоять из формальных процедур!


Привет Уубер. Ваш пример ESDA - отличный пример, спасибо! Если вы (или другие) можете предложить другие примеры, когда формальные процедуры менее актуальны - это было бы очень полезно.
Таль Галили

7

Для меня интерактивная визуализация полезна только для моего собственного исследования или при работе с очень практичным клиентом. Имея дело с финальной презентацией, я предпочитаю выбирать статический график, который лучше всего подходит для моей цели. В противном случае клиенты могут быть полностью отвлечены фактором гиз-свиста.

Самым большим преимуществом, которое я получаю от этого, является уровень скорости, который позволяет мне исследовать гораздо больше, чем я мог бы, если бы я прекратил программировать решение. JMP - один из моих любимых инструментов для этого, поскольку он объединяет многое из того, что я хочу, в единый интерфейс. Я думаю, что большинство людей, которые являются хорошими статистическими программистами, пробуют что-то вроде JMP (или GGobi и т. Д.) В течение слишком короткого периода времени, чтобы действительно добиться успеха. JMP, в частности, создаст впечатление, что вы знаете это, просто просматривая меню. Однако работа с руководством действительно необходима, чтобы раскрыть всю его мощь.

Вы упомянули мою главную озабоченность по поводу этого уровня скорости: вы в конечном итоге совершенно не представляете, что означают ваши p-значения. Всего за несколько минут вы можете визуально изучить сотни отношений. В конце концов, проверка гипотез полностью вводит в заблуждение, но я вижу, что люди делают это постоянно.

Особенность, которую я люблю в GGobi, - это стремление к проецированию, в котором вы указываете, какой тип шаблона вы ищете в многомерном пространстве, а затем сидите и наблюдаете, как он «преследует» эту цель. Отличный материал!


2
+1. Замечание о заключительных выступлениях напоминает, как известный контрпример, знаменитый доклад TED 2006 года Ханса Рослинга ( ted.com/talks/… ). В связи с вопросом об изучении «гораздо большего», мне напомнили о том, как адвокат во время показания спросил меня о том, как я изучил данные, подтверждающие мои показания, и как ее лицо упало, когда она узнала, что работа была сделана в интерактивном режиме и поэтому ничего не было напечатано или сохранено (что она могла тогда вызвать в суд, изучить и попытаться опровергнуть). ;-)
whuber

JMP - одно из лучших приложений для статистики. Статистики обязательно должны научиться им пользоваться, чтобы произвести впечатление на своих клиентов. Это дорого, но дешево, если вы студент или сотрудник в школе / колледже / университете
Нил Макгиган
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.