Каков наилучший способ визуализации отношений между дискретными и непрерывными переменными?


19

Каков наилучший способ показать отношения между:

  • непрерывная и дискретная переменная,
  • две дискретные переменные?

До сих пор я использовал точечные диаграммы, чтобы посмотреть на связь между непрерывными переменными. Однако в случае дискретных переменных точки данных накапливаются через определенные промежутки времени. Таким образом, линия наилучшего соответствия может быть предвзятой.


4
Для дискретно-дискретного случая этот ответ на несколько связанный здесь вопрос о построении упорядоченных категориальных данных может помочь (хотя, возможно, без рамок в вашем случае). Я действительно не уверен, как вы думаете, возникает этот «уклон»; это повлияло бы на визуальное впечатление от точек данных (что привело бы к тому, что линия ожидала, что линия пойдет куда-то иное, чем должно), но не к самим фактическим данным. Можете ли вы объяснить свои рассуждения здесь?
Glen_b

Ответы:


26

Ниже: оригинальный график может вводить в заблуждение, потому что дискретный характер переменных делает точки пересечения:

введите описание изображения здесь

Один из способов обойти это - ввести некоторую прозрачность в символ данных:

введите описание изображения здесь

Другой способ - мягко сместить местоположение символа, чтобы создать мазок. Эта техника называется "дрожание":

введите описание изображения здесь

Оба решения по-прежнему позволят вам подобрать прямую линию для оценки линейности.

R код для вашей справки:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Хороший ответ. Как насчет графиков с пузырьковыми точками с переменным числом экземпляров? Я пытался использовать эти методы на массивном наборе данных, и все это занимало слишком много времени при рендеринге альфа.
Джош

14

Я бы использовал boxplots для отображения взаимосвязи между дискретной и непрерывной переменной. Вы можете сделать свои блокпосты вертикальными или горизонтальными с помощью стандартного статистического программного обеспечения, так что его легко визуализировать как IV или DV. Это является возможным использовать диаграмму рассеяния с дискретным и непрерывной переменной, просто присвоить номер дискретной переменной (например, 1 и 2), и джиттера эти значения (примечание верхний участок на право здесь ).

Что касается вашего комментария, что линия наилучшего соответствия может быть предвзятой, это зависит от того, что у вас есть. Например, если у вас есть дискретная переменная с двумя уровнями в качестве вашего IV, и непрерывная переменная в качестве вашего DV, вы можете провести линию через два средних значения, и это не будет смещено. (Обычно мы думаем, что эта ситуация подходит для t-теста, но на самом деле это форма регрессии, т. Е. Простой случай, см. Мой ответ здесь. .) С другой стороны, если у вас есть дискретный переменная с двумя уровнями в качестве вашего DV, стандартная (OLS) регрессия была бы неуместна ( потребовалась бы логистическая регрессия), и линия наилучшего соответствия была бы смещена, но вы могли бы уместить (и построить) линию низкого уровня как часть вашей начальной разведка данных.

Для визуализации отношений между двумя дискретными переменными я бы использовал мозаичный график . Вы можете также использовать решета участок , в ассоциировании участок , или динамичный сюжет давления с некоторым программированием.


8

При рассмотрении взаимосвязи между двоичной исходной переменной и непрерывным предиктором я бы использовал сглаживание лёсса (с отключенным определением выбросов, например, в R) lowess(x, y, iter=0).

В следующем выпуске Hmiscпакета R вы можете легко создать один latticeграфический объект, который помещает такие кривые в многопанельный дисплей для нескольких предикторов, например

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Если вы не удовлетворены простыми точечными диаграммами, вы можете добавить частоты точек данных к каждому значению дискретной переменной. Как это сделать, зависит только от статистической программы, которую вы используете. Вот пример для Stata. Вы также можете применить это к точечной диаграмме двух категориальных переменных. В противном случае может быть хорошо работать с рамочным графиком или наложенными гистограммами, но это действительно зависит от того, как вы хотите представить эти переменные.


1

Я нашел документ, применимый к ассоциации между двумя двоичными переменными, на http://www.boekboek.com/xb130929113026 - здесь, в этой статье показано и доказано, что сила ассоциации между двумя двоичными переменными может быть выражена в виде доли идеальная ассоциация. Таким образом, становится возможным и предпочтительнее заявить: ассоциация между переменной A и переменной B составляет, например, 50% вместо современного указания: OR = 9 (не легко интерпретировать) или реальный риск = 2 (в настоящее время относительный риск считается слишком, чтобы быть мерой ассоциации, хотя на самом деле это функция ассоциации, распространенности или заболеваемости и позитивности).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.