Графические небольшие образцы


13

У меня есть небольшой набор данных 14 раз для выполнения задачи. Однако у меня возникают трудности с поиском подходящего графика для использования в графике данных. Если бы образец был больше, я бы использовал коробочную диаграмму или гистограмму, но я не уверен, что было бы целесообразно использовать в этом случае, когда выборка очень мала.

Обновление: времена 5,2,3,9,5,6,4,2,3,8,4,1,6,0,5,6,4,4,4,5,4,9,4,5,4,9,4,2


4
Ничто не сравнится с показом реальных данных, которые вас интересуют, в качестве конкретного примера, побуждающего людей публиковать различные решения. Заранее я предлагаю точечные или стрипплоты и квантильные участки с наложенной коробкой.
Ник Кокс

Ответы:


16

Я думаю, что основной принцип здесь заключается в том, что вы можете и должны показывать все индивидуальные ценности. Даже если деталь не является явно интересной или полезной, нет причин не показывать ее или обязывать читателя декодировать (скажем) гистограмму, в которой столбцы могут представлять только одно или два значения.

Я предлагаю здесь небольшой композит. Слева вверху - точечная или полосчатая диаграмма (по меньшей мере двадцать других имен были использованы для одной и той же идеи), представленные горизонтально, а в верхнем правом углу та же идея, представленная вертикально. Экземпляры с одинаковым значением сопоставляются с помощью суммирования.

Внизу представлен график квантильного прямоугольника, в смысле Парзена, в котором молчаливый горизонтальный масштаб представляет собой кумулятивную вероятность (положение графика в обычном жаргоне), а условный квадрат медианы и квартилей можно нарисовать так, чтобы (в принципе) половина значения находятся внутри поля, как всегда объявляется, и половина значений снаружи. Дополнительная горизонтальная линия здесь представляет среднее значение. Некоторые люди добавляют средства на графы в виде дополнительной точки или символа маркера; Я считаю, что это может конфликтовать с отображением самих данных, и я предпочитаю дополнительную строку. Если линия для медианы и линия для среднего значения совпадают, вам нужно подумать, что делать. Почти всегда среднее значение и медиана заметно различаются.

Возможно, это стандартное явление единиц измерения на графике, но я не вижу, какие они есть.

введите описание изображения здесь

(Я намеренно выдвинул здесь еще одну точку, которая заключается в том, что графики могут быть очень маленькими, но все же информативными. На практике я бы не стал делать их такими маленькими.)

РЕДАКТИРОВАТЬ:

Перекрестные ссылки добавлены к графикам квантильных коробок в широком смысле в смысле Парзена (дополнительные ссылки на втором месте ниже; существуют другие варианты использования «диаграмм квантильных коробок»)

Как я могу измерить разницу между непараметрическими данными со многими нулями?

Как использовать коробочные диаграммы, чтобы найти точку, в которой значения с большей вероятностью могут прийти из разных условий?

Как визуализировать два независимых t-критерия?

Как мне узнать, какой эксперимент проходит лучше, используя U-критерий Манна-Уитни?

Shera, DM 1991. Некоторые виды использования квантильных графиков для улучшения представления данных. Вычислительная наука и статистика 23: 50-53.

Militký, J. и M. Meloun. 1993. Некоторые графические пособия для одномерного анализа поисковых данных. Analytica Chimica Acta 277: 215-221.

Meloun, M. and J. Militký. 1994. Компьютерная обработка данных в аналитической хемометрии. I. Исследовательский анализ одномерных данных. Chemical Papers 48: 151-157.

РЕДАКТИРОВАТЬ 2:

Суть этих тем состоит не только в том, чтобы ответить на неотложный вопрос, но и в том, чтобы затронуть похожие вопросы, которые могут заинтересовать других.

Некоторые другие графические дизайны в других ответах здесь показывают идентификаторы, помеченные агностически 1 ... 14 в отсутствие других деталей. Предположим, что эти и другие идентификаторы были полезны при интерпретации, простой способ показать их - точечная диаграмма Кливленда. Вот две из нескольких возможностей, в которых порядок идентификаторов соблюдается буквально (слева) и в котором значения сортируются (справа). При необходимости есть много места для более длинных этикеток.

Преимущество этого дизайна перед гистограммами состоит в том, что ось ответа или результата может начинаться со значения, отличного от нуля, если это кажется лучшим выбором.

Поворот диаграмм так, чтобы ось отклика была вертикальной, также можно легко представить.

введите описание изображения здесь


(+1) Я иногда видел точечный или полосовой график, особенно если он ориентирован вертикально, с «сложенными» точками по центру, а не по левому краю (т. Е. Если бы было три сложенных точки, то средняя была бы на одной линии с не собранные точки). Это дает линию симметрии, которая эстетически приятна, но я не уверен, насколько она полезна практически. Возможно, это облегчает наложение коробки. У этого есть отдельное имя, вы знаете? И был ли совет, чтобы избежать / принять это?
Серебряная

1
Кроме того, есть ли шанс, что вы могли бы дать ссылку на Parzen? Мне всегда нравились эти сюжеты, но я никогда не читал правильную ссылку на них.
Серебряная

@Silverfish Центрированные (центрированные) варианты, безусловно, популярны и часто обсуждаются. Как вы упоминаете, мелкие проблемы - это стремление к симметрии по сравнению с дизайном, напоминающим стиль гистограммы, который я предпочитаю немного предпочесть, но это вопрос вкуса и обстоятельств. Я добавил перекрестные ссылки и в свою очередь приветствовал бы других.
Ник Кокс

3

@ Ник Кокс уже привел несколько хороших примеров, два других варианта, которые я использую довольно часто, - это прямоугольник с наложенными точками или слегка дрожащий,

введите описание изображения здесь

введите описание изображения здесь

С кодом R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

РЕДАКТИРОВАТЬ: Вы также можете использовать скрипку, если вы этого хотите

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

введите описание изображения здесь


1
Большое спасибо за ответ. Я неохотно использовал коробочные графики в моих анализах изначально из-за размера образца. Но, посмотрев на разные учебники, кажется, что размер моей выборки достаточен.
Имонн

1

Ваш вопрос напомнил мне технику, описанную в этом блоге . Речь идет о визуализации дискретных событий.

Основная хитрость в том, чтобы построить the time before an eventх the time after an event.

Ваши данные визуализируются [1]

Это может быть случайно, но в верхней средней области нет данных. Так что есть какая-то видимая структура.


Быстрый и грязный Rкод.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

ОП сказал 14 раз. Я понимаю, что это означает, что это не серия. Если они серии, ваша идея, безусловно, уместна.
Ник Кокс

Вы, вероятно, правы. Однако, даже если они не серия, график будет показывать зависимость между временами. Очевидно, что метки оси неверны.
Харальд Томсон

2
Только ОП может уточнить, какие именно данные, но я не думаю, что этот график выигрывает в любом случае. Если данные разделены по времени, то график не имеет смысла, если только нет значения для порядка, в котором заданы значения.
Ник Кокс

FYI textпринимает векторные аргументы - text(x, y, 1:12)должно работать.
MichaelChirico

1

Другая идея, так как вы используете время.

Участок ипподрома - барплот с полярными координатами - дает тот же эффект, что и секундомер:

беговая дорожка

В идеале метки наблюдения должны быть наложены на стержни или, по крайней мере, на другой конец. Прямо сейчас у зрителя есть дополнительное напряжение отслеживания того, какое наблюдение есть (вверх / вниз) при проведении каких-либо сравнений.


2
Я должен расценивать это как эксцентричный, действительно, чтобы быть откровенным, совершенно извращенной, графовой техникой. Глаз видит даже не длину дуги, а область, которая должна быть декодирована как таковую, но мозг должен вмешаться и подчеркнуть, что информативен только угол поворота. Трудно даже определить, какие значения меньше, равны или больше друг друга, что непосредственно в любом приемлемом стиле графика.
Ник Кокс

Единственный плюс, который я вижу для этого дизайна, если только оценка не для необычного дизайна, это то, что идентификаторы с 1 по 14 являются непосредственными в этом проекте. Я поднял этот пункт в редактировании моего собственного ответа.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.