Какой график подходит для иллюстрации взаимосвязи между двумя порядковыми переменными?
Несколько вариантов, которые я могу придумать:
- Разброс графиков с добавлением случайного дрожания, чтобы точки, скрывающие друг друга По-видимому, стандартная графика - Minitab называет это «графиком отдельных значений». На мой взгляд, это может вводить в заблуждение, поскольку визуально способствует некоторой линейной интерполяции между порядковыми уровнями, как если бы данные были получены из интервальной шкалы.
- Диаграмма рассеивания адаптирована таким образом, что размер (площадь) точки представляет частоту этой комбинации уровней, а не рисует одну точку для каждой единицы выборки. Я иногда видел такие сюжеты на практике. Их может быть трудно прочитать, но точки лежат на равномерно распределенной решетке, что несколько преодолевает критику графика разбросанного рассеяния, который визуально «разбивает» данные.
- В частности, если одна из переменных рассматривается как зависимая, блок-график группируется по уровням независимой переменной. Вероятно, выглядит ужасно, если число уровней зависимой переменной недостаточно велико (очень «плоско» с отсутствующими усами или, что еще хуже, сжимающимися квартилями, что делает визуальную идентификацию медианы невозможной), но, по крайней мере, привлекает внимание к медиане и квартилям, которые соответствующая описательная статистика для порядковой переменной.
- Таблица значений или пустая сетка ячеек с тепловой картой для указания частоты. Визуально отличается, но концептуально похож на график рассеяния с точечной областью, показывающей частоту.
Есть ли другие идеи или мысли о том, какие участки предпочтительнее? Существуют ли области исследований, в которых определенные порядковые-против-порядковые графики считаются стандартными? (Кажется, я вспоминаю частотную тепловую карту, широко распространенную в геномике, но подозреваю, что это чаще всего для номинального-против-номинального.) Предложения для хорошего эталонного эталона также были бы очень желательны, я предполагаю кое-что от Агрести.
Если кто-то захочет проиллюстрировать сюжет, используйте R-код для поддельных образцов данных.
"Насколько важно упражнение для вас?" 1 = совсем не важно, 2 = несколько неважно, 3 = ни важно, ни неважно, 4 = несколько важно, 5 = очень важно.
"Как часто вы занимаетесь бегом 10 минут или дольше?" 1 = никогда, 2 = менее одного раза в две недели, 3 = один раз в одну или две недели, 4 = два или три раза в неделю, 5 = четыре или более раз в неделю.
Если было бы естественно трактовать «часто» как зависимую переменную, а «важность» - как независимую переменную, если график различает эти две.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Связанный вопрос для непрерывных переменных я нашел полезным, может быть, полезной отправной точкой: каковы альтернативы диаграмм рассеяния при изучении взаимосвязи между двумя числовыми переменными?