Альтернатива решетчатым / мозаичным графикам для таблиц сопряженности

Однажды я наткнулся на тип сюжета для категориальных данных (то есть таблиц непредвиденных обстоятельств) в Интернете, который мне действительно понравился, но я никогда не нашел его снова, и я даже не знаю, как он называется. По сути, это было похоже на сито, в котором высота строк и ширина столбцов были масштабированы относительно предельных вероятностей. Таким образом, каждый блок был масштабирован до относительной частоты, ожидаемой при независимости. Тем не менее, он отличался от графика сита тем, что вместо того, чтобы наносить перекрестную штриховку внутри каждого блока, он наносил на карту точку (как на диаграмме рассеяния) в месте, случайно выбранном из двумерной униформы для каждого наблюдения. Таким образом, плотность точек отражает, насколько хорошо наблюдаемые значения соответствуют ожидаемым значениям. То есть, если плотность была одинаковой в каждом боксе, нулевая модель является разумной, ) не может быть очень вероятным при нулевой модели. Поскольку точки отображаются вместо перекрестной штриховки, существует простое и интуитивно понятное соответствие между нанесенным элементом и наблюдаемым количеством, что не обязательно верно для ситовых графиков (см. Ниже). Более того, случайное расположение точек придает сюжету «органичный» вид. Кроме того, цвет можно использовать для выделения полей / ячеек, которые сильно расходятся с нулевой моделью, а матрицу графиков можно использовать для изучения парных отношений между многими различными переменными, поэтому он может включать в себя преимущества аналогичных графиков. $i,j$

Кто-нибудь знает, как называется этот сюжет?
Есть ли пакет / функция, которая будет делать это легко в R или другом программном обеспечении (скажем, Mondrian)? Я не могу найти ничего подобного в VCD . Конечно, это может быть трудно закодировано с нуля, но это будет боль.

Вот простой пример ситового графика, обратите внимание, что легко увидеть, как ожидаемые значения для разных категорий должны проигрываться при нулевой модели, но трудно совместить перекрестную штриховку с фактическими числами, получая график, который не столь же легко читаемый и эстетически отвратительный:

    B ~B
 A 38  4
~A  3 19

введите описание изображения здесь
Что бы это ни стоило, у мозаичного графика есть своего рода противоположная проблема: хотя легче увидеть, какие ячейки имеют «слишком много» или «слишком мало» счетчиков (относительно нулевой модели), труднее распознать, какие отношения между ожидаемое количество было бы. В частности, ширина столбцов масштабируется относительно предельной вероятности, а высота строк - нет, что делает этот фрагмент информации практически невозможным для извлечения.
введите описание изображения здесь
А сейчас нечто соверешнно другое...

Кто-нибудь знает, откуда взялась конвенция использовать синий для «слишком много» и красный для «слишком мало»? Это всегда было для меня нелогичным. Мне кажется, что исключительно высокая плотность (или слишком много наблюдений) идет с жарким , а низкая плотность - с холодным , и что (по крайней мере, при освещении сцены) красные - теплые, а синие - прохладные .

Обновление: если я правильно помню, сюжет, который я видел, был в pdf главы (введение или ch1) из книги, которая была свободно доступна онлайн как маркетинговый тизер. Вот грубая версия идеи, которую я кодировал с нуля:
введите описание изображения здесь
даже с этой грубой версией я думаю, что ее легче читать, чем ситовый график, и в некоторых отношениях легче, чем мозаичный график (например, легче распознать, каковы отношения между частотами ячеек будет под независимостью). Было бы неплохо иметь функцию , что: а. будет делать это автоматически с любой таблицей непредвиденных обстоятельств, будет иметь приятные функции, которые идут с вышеуказанными графиками (например, стандартизированная легенда остатков на мозаичном графике). b. может быть использован в качестве строительного блока матрицы сюжета, и c.

r data-visualization categorical-data

— Gung - Восстановить Монику
источник

Итак, вы по сути хотите мозаичный сюжет с другим видом заполнения? Имеет ли Rфункция assocplotблизка к тому , что вы имеете в виду? Если нет, я уверен, что Rпрограммист может изменить это или mosaicplotсделать то, что вы хотите.

— Питер Флом - Восстановить Монику

Интересные связанные ссылки, Затенения на основе остатков для визуализации ( условной ) независимости ( Zeileis et al. 2007 ), PDF здесь и еще один поток здесь по визуализации таблиц сопряженности с несколькими ссылками. Я полагаю, что в статье Zeileis есть хорошая дискуссия о цвете, которая может ответить на ваш последний вопрос (может быть, полезно просмотреть ссылки, чтобы увидеть, ссылаются ли они также на таблицу, о которой вы говорите).

— Энди W

Напротив, @PeterFlom, я хочу по существу ситовый график с другим типом заполнения. В качестве альтернативы, вы можете сказать, что я хочу мозаичный график, где отображаемые поля масштабируются относительно ожидаемых частот при независимости (и, возможно, также другого типа заливки).

— gung - Восстановить Монику

«Кто-нибудь знает, откуда взято соглашение использовать синий для« слишком много »и красный для« слишком мало »? Для меня это всегда было нелогичным». Хорошая точка зрения. Это действительно нелогично. Спектр света проходит примерно от синего на левом (связанный с меньшей длиной волны) до красного справа (связано с большими длинами волн). Мозаичные дисплеи, кажется,

— переворачивают это с ног

Идея ситовой диаграммы состоит в том, что количество ячеек в каждой ячейке пропорционально наблюдаемой частоте, поэтому относительная плотность показывает большую или меньшую, чем ожидаемая частота. Если вам не нравятся цвета, вы можете легко изменить их по умолчанию. Если вам не нравится функция затенения сита по умолчанию, вы можете легко написать свою собственную, например, shading.points()чтобы делать то, что вы хотите, в структуре Strucplot, которая была процитирована выше и доступна в виде виньетки в vcdпакете.

— user101089

Книга, которую вы описали, звучит как «Визуализация категориальных данных», Michael Friendly. График, описанный в 1-й главе, который, кажется, соответствует вашему запросу, был описан как тип концептуальной модели для визуализации данных таблицы сопряженности (в общих чертах описан автором как модель динамического давления с плотностью наблюдений), и его можно увидеть в предварительном просмотре Google. для гл. 1. Книга предназначена для пользователей SAS.

Ссылка на статью по теме здесь: www.datavis.ca/papers/koln/kolnpapr.pdf

«Концептуальные модели для визуализации данных таблицы непредвиденных обстоятельств», Michael Friendly.

введите описание изображения здесь

* кстати, автор также указан как один из авторов пакета vcd (как он был специально вдохновлен его книгой, упомянутой выше) - возможно, вы могли бы спросить его напрямую, есть ли простая модификация одной из встроенных функций, которая не очевидно

** Схема окраски, по-видимому, связывает синий цвет с положительными отклонениями от независимости и красный для отрицательных отклонений. Хотя красная схема имеет смысл в этом контексте, возможно, было бы более целесообразно использовать зеленый для представления положительных отклонений.

http://www.datavis.ca/papers/asa92.html

— похлопывание
источник

Хорошая работа, загадка разгадана! Мне нужно на самом деле купить книгу, а не просматривать ее в разных тонах, и моя библиотека время от времени отправляет мне главы. ИМО, эта форма визуализации напоминает мне многое из того, что картографы называют «точечными картами», и можно использовать литературу для обоснования того, как точки являются лучшим инструментом визуализации, чем линии и перекрестные штриховки. Это также хорошая литература с точки зрения преимущественного размещения точек.

— Энди W

Это дает мне хорошее начало. Спасибо за вашу помощь.

— gung - Восстановить Монику

Может быть, не то, что вы видели, но для визуализации вылетов, ожидаемых в соответствии с независимыми заговорами, мотивы хорошо мотивированы.

http://www.jstatsoft.org/v20/i03/

(Кроме того, SAS и книга M Friendly ошиблись по поводу рекомендуемой корректировки, и на многих графиках были артефакты, и это могло отвлечь их от их предполагаемой ценности.)

— фанерон
источник

Спасибо за вашу помощь, мне нравятся заочные сюжеты. Можете ли вы сказать больше об этой рекомендуемой настройке, которая была ошибочной? Какая настройка была? Как это было неточно? А что не так с участками?

— gung - Восстановить Монику

@gung: см. download.journals.elsevierhealth.com/pdfs/journals/0895-4356/…

— phaneron