Сколько переменных я могу представить графически, прежде чем потерять ясность?


14

Посмотрим, смогу ли я правильно объяснить этот графический вопрос об экономике . Я новичок в этой области, и стоит упомянуть, что это чистое любопытство, и мои примеры, как вы скоро увидите, полностью придуманы.

Сколько переменных я могу представить графически, прежде чем мой график потеряет качество связи? Предположим, моя аудитория, например, читатели воскресных газет.

Предположим, у меня есть этот набор: вес (х) / возраст (у) и два человека: Джейн, 10 лет, 30 кг; и Джо, 20 лет, 60 кг. Графическое представление может быть примерно таким:

введите описание изображения здесь введите описание изображения здесь

Теперь я знаю, что могу добавить другую переменную, используя размер кружков, поэтому, если я хочу добавить представление о том, сколько гамбургеров съедают Джейн и Джо в неделю (10 и 20 соответственно), у меня может быть что-то вроде:

введите описание изображения здесь введите описание изображения здесь

И я даже могу использовать форму или цвет + размер, чтобы добавить четвертую переменную, например, если они едят больше чизбургеров, чем говяжьих бургеров (здесь ограничение заключается в том, что тип гамбургера булев, с двумя возможными значениями), но в любом случае:

введите описание изображения здесь введите описание изображения здесь

И это, где я думаю, что это становится грязным. Добавление фигур в комбо для представления пятой переменной может поставить под угрозу простоту понимания графика. Когда я смотрю на график, мой (конкретный) мозг обрабатывает только 2 или 3 переменных, не более. Они едят комбо или просто гамбургеры, например?

введите описание изображения здесь введите описание изображения здесь

Я думал о третьем измерении, но это выглядело бы просто ужасно. Я мог бы думать об этом совершенно неправильно, и, скорее всего, я здесь упускаю что-то совершенно очевидное, что я не могу понять (например, если попытка представить более 3 или 4 переменных является просто неправильной практикой), но назад на мой вопрос (ы):

  • Является ли 4 (возможно, 5, если график очень простой, как мой) разумным числом для максимальных переменных, представленных одновременно в двухосевой диаграмме?

  • Существуют ли другие типы графиков, которые допускают больше переменных, не теряя ясности?

  • Есть ли хороший пример диаграммы, которая представляет большое количество переменных?

Ответы:


14

Редактировать III: я нашел чрезвычайно великолепный пример многомерной визуализации количественных данных, и мне пришлось добавить его. Вы найдете его под заголовком «Править III (Нобелевские лауреаты)».

Редактировать II: было небольшое недоразумение, и я отредактировал, чтобы попытаться уточнить, как я интерпретирую предполагаемое использование данных. Я заменил два изображения и добавил раздел "Хотите ли вы картофель фри с этим?"


Графика показывает данные.

Эдвард Туфте:

Беспорядок и путаница - неудачи дизайна, а не атрибуты информации. Clutter требует дизайнерского решения, а не сокращения контента. Довольно часто, чем интенсивнее детали, тем больше ясности и понимания, потому что значение и аргументация неуклонно КОНТЕКСТНЫ. Меньше зануда.

Почему мы визуализируем данные?

  • Инструменты для мышления
  • Чтобы показать результат интенсивного видения
  • Чтобы понять проблему, принять решение
  • Показать сравнения, показать причинность
  • Укажите причины, чтобы верить

Как?

  • показать данные
  • побудить зрителя задуматься о сути, а не о методологии, графическом дизайне, технологии графического производства или о чем-то еще
  • не искажайте то, что говорят данные
  • представить много чисел в небольшом пространстве
  • сделать большие наборы данных связными
  • побуждайте глаз сравнивать разные данные
  • раскрыть данные на нескольких уровнях детализации, от широкого обзора до тонкой структуры.
  • служить разумно ясной цели: описание, исследование, табулирование или оформление.
  • быть тесно интегрированным со статистическими и устными описаниями набора данных.

Несколько определений:

Данные:

обычно считается "материалом, который сортируется в базах данных". Конечно, это могут быть цифры, изображения, звук, видео и т. Д. Данные - это то, что можно собирать, часто количественно. В его самой сырой форме это трудно переварить; просто стены цифр. Вы знаете; Матрица . Вообще говоря, у нас нет массивных баз данных, состоящих из нулей, для всего того, чего у нас нет , даже если иногда то, чего у нас нет, является наиболее информативным . Итак, чтобы увидеть, чего у нас нет, нам нужно визуализировать то, что у нас есть.

Информация:

это то, что вы можете извлечь из данных . Показывая данные каким-то образом, мы можем получить информацию . Один из примеров, которые я часто использую, состоит в том, что если я дам вам список стран мира и скажу, что два из них отсутствуют, то вряд ли вы найдете их на основе этого списка. Однако, если я отобразлю это, закрасив все страны, которые у меня есть на карте, вы сразу увидите, что я опустил Центральноафриканскую Республику и Новую Каледонию. Это «снижение шума» и рассказ истории наиболее эффективным способом.

Инфографика и визуализация данных:

Стесняюсь назвать ваш пример инфографикой. Я знаю, что это часто воспринимается как синонимы визуализации данных, информационного дизайна или информационной архитектуры, но я не согласен. Инфографика - для меня - это серия графиков, диаграмм и иллюстраций, которые могут содержать множество предвзятых утверждений о том, как читать данные. Это менее объективно, более склонно пропускать данные, которые не в «интересах» создателя: вы руководствуетесь выводом, который кто-то предопределил. Они имеют развлекательную ценность и часто используют иллюстрации, которые отвлекают внимание от данных. Это хорошо, но я думаю, что мы должны немного дифференцироваться.

Примеры

Большое количество данных:

Имейте в виду, что большие данные - это не то же самое, что сложные данные. Многие данные могут быть одинаковыми, например, карта LinkedIn: основные данные одинаковы, но есть фильтры (по тегам). Есть две переменные: география и некая метка, определяющая людей по профессиям / интересам / отношениям. Безумное количество данных; но только две переменные.

введите описание изображения здесь

Multivariable:

Вот пример многомерной визуализации данных. Это диаграмма Чарльза Минарда 1869 года, показывающая количество людей в русской армии Наполеона 1812 года, их передвижение, а также температуру, с которой они столкнулись на обратном пути. Большая версия здесь. введите описание изображения здесь

Взлом кода занимает немного времени, но когда вы это делаете, это великолепно. Перечисленные переменные:

  • размер армии (количество живых / мертвых)
  • географическое положение
  • направление (восток - запад)
  • температура
  • время (даты)
  • причинно-следственная связь (умер в боях и от холода)

Это невероятное количество информации на простой двухцветной карте. Географическая часть стилизована, чтобы дать место другим переменным, но у нас нет проблем с ее получением.

Вот более хитрый. Это будет намного легче читать, если вы знакомы с основными эволюционными визуализациями, кладограммами, филогеникой и принципами биогеографии. Имейте в виду, что это сделано для людей, знакомых с этим, так что это специалист, научная карта. Вот что он показывает: Филогеографическое изображение ядовитых линий лягушек из Южной Америки. Карты слева показывают основные биогеографические районы по мере их изменения во времени, а изображение справа показывает родословные лягушек в контексте их биогеографического происхождения. (Авторы Сантос, Колома Л.А., Саммерс К., Колдуэлл Дж.П., Ри Р. и др. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], через Wikimedia Commons). Когда вы «взламываете код», это невероятно информативно.

введите описание изображения здесь

Маленькие кратные, спарклайны:

Я не могу подчеркнуть это достаточно: никогда не стоит недооценивать ценность повторения информации или деления ее на отдельные идентичные визуализации. Пока достаточно просто сравнить один график с другим, это прекрасно. Мы машины для поиска моделей. Это часто называют небольшими коэффициентами. У нас мало проблем с быстрым анализом этих изображений, и объединение всего в один большой граф часто бессмысленно, когда десять маленьких будут работать еще лучше:

введите описание изображения здесь

Еще один:

введите описание изображения здесь

И тот, который использует другую, но повторяющуюся графику:

введите описание изображения здесь

Sparklines - это термин, придуманный Эдвардом Туфте, который также превратился в полнофункциональную, полностью настраиваемую библиотеку javascript. Это в основном крошечные диаграммы, которые могут быть вставлены в текст, как часть текста, а не как «внешний» объект. Вот как выглядит по умолчанию: введите описание изображения здесь

Править III (Нобелевские лауреаты)

Мне просто нужно было добавить эту визуализацию данных, которую я нашел, она просто слишком хороша: она показывает нобелевских лауреатов. Какой университет, какой факультет, предмет, год, возраст, родные города, был ли он общим, степень степени. Действительно прекрасное доказательство. Это все количественные данные. Больше здесь.

введите описание изображения здесь

введите описание изображения здесь

Ваши данные

Все вопросы, которые ставит @Javi, чрезвычайно важны.

То, что вы пытаетесь сделать, это создать визуальный инструмент для мышления. Для этого вы должны извлечь лучшее качество отношения сигнал / шум. То, с чем вы боретесь, это как соотнести данные с разными переменными в информацию . Вот вопрос: что должно быть приблизительно правильно, а что должно быть точно правильно? Какова цель?

Я собираюсь предположить, что вы хотите отображать данные без особой предвзятости: вы хотите, чтобы читатель сам нашел корреляции, если есть какая-либо корреляция, которая будет иметь место. Ваша цель не в том, чтобы сказать людям, что гамбургеры вредны для них или что женщины едят меньше гамбургеров, чем мужчины, а дать им «увидеть» это, если это то, что содержится в данных (представьте, если бы эти три человека были семьей. качаем наш взгляд на весь гамбургер-чуть-чуть).

Ваш набор данных настолько мал, что вы можете просто положить все это в таблицу, и все будет в порядке. Но, конечно, это общая идея:

Небольшая деталь: время (возраст) - это то, что мы видим как горизонтальное слева направо (временные шкалы). Весите что-то, что вверх-вниз, поэтому переключение вашей x-y было бы хорошей идеей.

1. Какие уникальные фиксированные объекты?

  • имена

2. что такое (эх ..) переменные переменные?

  • Вес (кг)
  • Возраст (годы)
  • Количество гамбургеров (целое число)
  • Тип гамбургеров (целое число)

Примечание: ваши данные целиком состоят из единиц. Счетные, поддающиеся количественной оценке каждый в отдельном умственном масштабе. Кило, возраст, вес и количество. И в базе данных говорят, что их имена являются ключами. Когда вы начинаете делать пространственно-временные визуализации, это становится настоящей головной болью. Представьте, что вы должны добавить место рождения, текущий дом и т. Д.

Только два здесь, которые имеют корреляцию, - это количество гамбургеров и влажность или нет, это комбо. Все остальные переменные являются независимыми, и только одна является фиксированной (имя). В какой-то момент, с большими наборами данных, даже имена становятся неинтересными и заменяются демографическими данными, возрастом, полом и т.п.

С этим крошечным набором данных вы можете получить все это на одном графике, например, так: введите описание изображения здесь

Или вы можете включить изменить ось и имя пузырька содержимого:

Личное примечание: я думаю, что это лучшее из двух, потому что x и y содержат «физические» свойства человека. Переменная в пузырьках - это количество бургеров.

введите описание изображения здесь

Вы также можете добавить круговые диаграммы в дополнение к графику или даже иметь только круговые диаграммы. Лично у меня было бы и то и другое, как уже упоминалось о небольших коэффициентах: введите описание изображения здесь

Вы хотите картофель фри с этим?

Мое предположение состояло в том, что мы также хотели знать отношение гамбургера к еде. Каждое блюдо содержит гамбургер. Не все блюда являются комбинированными.

  1. мы только хотим знать, ест ли человек иногда combomeals?
  2. или мы хотим знать, сколько блюд из гамбургеров также являются комбомолями?

Если 1., логическое значение применяется к имени / ключу / идентификатору.

Джейн иногда ест гребешки? Правда / ложь.

Если 2., мы можем применить логическое значение для каждого приема пищи:

1 чизбургер, combomeal = правда

1 чизбургер, combomeal = правда

1 чизбургер, комбомал = ложь

1 чизбургер, комбомал = ложь

1 чизбургер, комбомал = ложь

1 чизбургер, комбомал = ложь

1 чизбургер, комбомал = ложь

1 гамбургер, комбомал = верно

1 гамбургер, комбомал = верно

1 гамбургер, комбомал = ложь

Это очень утомительно, поэтому мы можем разбить его на:

Джейн ест 10 гамбургеров. Из них три являются комбо («хотите картошку с этим?»).

Одним из combomeals является меню гамбургера.

Два из combomeals - меню чизбургера.

Остальные - одиночные гамбургеры. 5 сыров, две говядины.

Эта круговая диаграмма была попыткой визуализировать это. Я в этой версии сохранил кусочки пирога, чтобы было понятнее. Дело в том, что было бы непросто начать применять большие наборы данных и%: введите описание изображения здесь

Но я думаю, что лучший способ это переосмыслить.

Другой способ взглянуть на это - сделать это действительно очень просто. Здесь легче увидеть, какие возрастные группы, какие весовые группы и все данные, которых у вас нет, могут нам рассказать. Данные, которые у вас есть, не связаны с пробелами, это только единицы измерения (кг, годы, цифры + ключ / идентификатор / имя):

(Изменить: яйцо на моем лице: я заменил эти изображения на более правильные, так как "все блюда - гамбургеры, а не все блюда - комбинированные")

введите описание изображения здесь Это было бы довольно легко расширить с большим количеством людей:

введите описание изображения здесь Или, что еще лучше, если вы сравните возрастные группы 10, 20 и 30 лет, вы можете сделать довольно простую для чтения статистическую визуализацию:

введите описание изображения здесь

..И просто быть максимально понятным; Вот пример такого мышления. Эта диаграмма показывает выживших Титаника, соотношение экипажа, класса, мужчин, женщин. введите описание изображения здесь

Там будет множество других решений, это всего лишь несколько мыслей.

Я мог продолжать и продолжать, но теперь я исчерпал себя и, вероятно, всех остальных.

Инструменты для игры:

gephi

Gapminder Посмотрите эту феноменальную презентацию TED Ханса Рослинга - любите этого парня

Google диаграммы

somvis

Рафаель

MIT Exhibit (ранее назывался Similie)

d3

Highcharts

Дальнейшее чтение:

Пи Джей Онори; В защиту тяжело

Эдвард Туфте: прекрасное доказательство

Эдвард Туфте: Предвидение информации

Эдвард Туфте: визуальное отображение количественной информации

Визуальные объяснения: изображения и количество, доказательства и повествование

Male, Alan., 2007 Иллюстрация теоретическая и контекстная перспектива Лозанна, Швейцария; Нью-Йорк, Нью-Йорк: AVA Academia

Isles, C. & Roberts, R., 1997. В видимом свете, фотография и классификация в искусстве, науке и повседневной жизни, Музей современного искусства Оксфорд.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Чтения в Информационной Визуализации: Используя Видение, чтобы Думать 1-ое издание., Морган Кауфманн.

Графтон, А. & Розенберг, Д., 2010. Картографии времени: история времени, Принстонская архитектурная пресса.

Лима, М., 2011. Визуальная сложность: картирование информационных шаблонов, Princeton Architectural Press.

Баунфорд, т., 2000. Цифровые диаграммы: как эффективно разрабатывать и представлять статистическую информацию 0 изд., Уотсон-Гуптилл.

Стил, Дж. & Ильинский, Н. ред., 2010. Прекрасная визуализация: взгляд на данные глазами экспертов 1-е изд., O'Reilly Media.

Gleick, J., 2011. Информация: история, теория, потоп, Пантеон


Я прочитал все это, но это займет недели, чтобы поглотить. Вы должны написать книгу!
Джошуа Франк

Для изображения Нобелевской премии, вы знаете, как они сделали это? Эти струящиеся ленты просто прекрасны.
Джошуа Франк

Нет, я не знаю, как именно она это сделала, но Джорджия Лупи очень охотно
отвечала

Привет, хорошая идея. Я только что отправил ей письмо.
Джошуа Франк

2
Вы заслуживаете приз novell за этот ответ n_n
Рафаэль

5

Я думаю, что есть несколько дополнительных вопросов, которые могут сузить ваш поиск ключа к представлению данных для вашей аудитории. Я думаю о них, как о сокращении вашего резюме на конкретную работу, которую вы хотите.

  1. Почему вы создаете инфографику.
  2. Какую конечную цель или результат вы хотите, чтобы ваша аудитория знала о ваших данных.
  3. Что вы знаете о своей аудитории и как они связаны с данными. (Демографический возраст, пол, геолокация, вес и т. Д.)
  4. Какую часть данных вы покажете самой важной и наименее важной, а разницу между ними.
  5. На каком носителе / ​​в каком контексте вы будете отображать свои данные, чтобы лучше всего достичь своей «чистой» цели по их созданию? Например, будет ли это цифровое представление данных или физическое (например, желейные бобы в банке, если ваша целевая аудитория - дети). Это будет офисная встреча или коммерческое предприятие?
  6. Можно ли разбивать данные на разные инфографики, сохраняя при этом целостность вашей цели для ее создания.

Ваши данные и цель должны диктовать условия того, что вы должны показывать, а не показывать. Например, насколько важно было бы показать график того, что люди заказывали в McDonald's во вторник с 13:00 до 15:00, когда ваша цель была просто показать сравнение того, что люди заказали в целом. Переменная времени не нужна, хотя у нас есть необработанные данные для нее. Это не было нашей целью.

Чтобы конкретно ответить на ваши вопросы. Я лично (субъективно) думаю , когда вы получаете за помощью three'ish / 4 переменные (размер, форма, цвет, положение) в базовой схеме , как это, читатель (я) надоест / потерял и скучно / потерял, вероятно , не причина граф был создан. Тем не менее, они могут быть абсолютно веселыми и действительно привлекать аудиторию. Например, что - то вроде этого , как противостоять этим . Я не обесцениваю важность второго примера, потому что он был бы действительно эффективным инфографикой, если бы я был на совещании в офисе, показывая общие данные. Это возвращает нас к вопросу о среде и контексте отображения данных.

Если вы ищете способы отображения переменных в данных, я бы предложил изучить инфографику. Вот хороший стартовый материал от Smashing Magazine по созданию эффективной инфографики. Имейте в виду, что кое-что из этого может и является субъективным.


2

Это отличный вопрос. Действительно.

Блестящий ход мыслей.

Там должно быть некоторое обсуждение по этому поводу. Но я бы сформулировал это немного по-другому:

**

Сколько объектов мы можем сопоставить с современными иллюстративными технологиями и дизайном?

**

Ответ заключается в трех аспектах производства: показ, дизайн и способ представления ... все смешано и учтено всплесками внимания аудитории.

Дисплей это физическая вещь. С ограничениями по размеру, разрешению и цветовому пространству.

Дизайн неограничен, но реальный интересный аспект этого вопроса. Как мы можем использовать современные иллюстративные технологии и наше понимание дизайна и креативности, чтобы показать как можно больше.

Режимы презентации являются статическими, динамическими или интерактивными. Каждый из них имеет свои сильные и слабые стороны и усугубляется средой, типом и размером дисплея.

И, как справедливо отмечает Хави, но, возможно, не заходит слишком далеко с ... ЭТО ВСЕ СУБЪЕКТИВНО! - Это всплеск внимания аудитории, учитывающий уравнение. Или не.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.