Однажды я наткнулся на тип сюжета для категориальных данных (то есть таблиц непредвиденных обстоятельств) в Интернете, который мне действительно понравился, но я никогда не нашел его снова, и я даже не знаю, как он называется. По сути, это было похоже на сито, в котором высота строк и ширина столбцов были масштабированы относительно предельных вероятностей. Таким образом, каждый блок был масштабирован до относительной частоты, ожидаемой при независимости. Тем не менее, он отличался от графика сита тем, что вместо того, чтобы наносить перекрестную штриховку внутри каждого блока, он наносил на карту точку (как на диаграмме рассеяния) в месте, случайно выбранном из двумерной униформы для каждого наблюдения. Таким образом, плотность точек отражает, насколько хорошо наблюдаемые значения соответствуют ожидаемым значениям. То есть, если плотность была одинаковой в каждом боксе, нулевая модель является разумной, ) не может быть очень вероятным при нулевой модели. Поскольку точки отображаются вместо перекрестной штриховки, существует простое и интуитивно понятное соответствие между нанесенным элементом и наблюдаемым количеством, что не обязательно верно для ситовых графиков (см. Ниже). Более того, случайное расположение точек придает сюжету «органичный» вид. Кроме того, цвет можно использовать для выделения полей / ячеек, которые сильно расходятся с нулевой моделью, а матрицу графиков можно использовать для изучения парных отношений между многими различными переменными, поэтому он может включать в себя преимущества аналогичных графиков.
- Кто-нибудь знает, как называется этот сюжет?
- Есть ли пакет / функция, которая будет делать это легко в R или другом программном обеспечении (скажем, Mondrian)? Я не могу найти ничего подобного в VCD . Конечно, это может быть трудно закодировано с нуля, но это будет боль.
Вот простой пример ситового графика, обратите внимание, что легко увидеть, как ожидаемые значения для разных категорий должны проигрываться при нулевой модели, но трудно совместить перекрестную штриховку с фактическими числами, получая график, который не столь же легко читаемый и эстетически отвратительный:
B ~B
A 38 4
~A 3 19
Что бы это ни стоило, у мозаичного графика есть своего рода противоположная проблема: хотя легче увидеть, какие ячейки имеют «слишком много» или «слишком мало» счетчиков (относительно нулевой модели), труднее распознать, какие отношения между ожидаемое количество было бы. В частности, ширина столбцов масштабируется относительно предельной вероятности, а высота строк - нет, что делает этот фрагмент информации практически невозможным для извлечения.
А сейчас нечто соверешнно другое...
- Кто-нибудь знает, откуда взялась конвенция использовать синий для «слишком много» и красный для «слишком мало»? Это всегда было для меня нелогичным. Мне кажется, что исключительно высокая плотность (или слишком много наблюдений) идет с жарким , а низкая плотность - с холодным , и что (по крайней мере, при освещении сцены) красные - теплые, а синие - прохладные .
Обновление: если я правильно помню, сюжет, который я видел, был в pdf главы (введение или ch1) из книги, которая была свободно доступна онлайн как маркетинговый тизер. Вот грубая версия идеи, которую я кодировал с нуля:
даже с этой грубой версией я думаю, что ее легче читать, чем ситовый график, и в некоторых отношениях легче, чем мозаичный график (например, легче распознать, каковы отношения между частотами ячеек будет под независимостью). Было бы неплохо иметь функцию , что: а. будет делать это автоматически с любой таблицей непредвиденных обстоятельств, будет иметь приятные функции, которые идут с вышеуказанными графиками (например, стандартизированная легенда остатков на мозаичном графике). b. может быть использован в качестве строительного блока матрицы сюжета, и c.
shading.points()
чтобы делать то, что вы хотите, в структуре Strucplot, которая была процитирована выше и доступна в виде виньетки в vcd
пакете.
R
функцияassocplot
близка к тому , что вы имеете в виду? Если нет, я уверен, чтоR
программист может изменить это илиmosaicplot
сделать то, что вы хотите.