Стоит четко определить цель вашего сюжета. В целом, есть два разных типа целей: вы можете составить графики для себя, чтобы оценить сделанные вами предположения и руководить процессом анализа данных, или вы можете создать графики, чтобы сообщить результат другим. Это не одно и то же; например, многие зрители / читатели вашего сюжета / анализа могут быть статистически неискушенными и могут не знать, например, о равной дисперсии и ее роли в t-тесте. Вы хотите, чтобы ваш участок передавал важную информацию о ваших данных даже таким пользователям, как они. Они безоговорочно верят, что вы все сделали правильно. Из вашего вопроса настройки, я понимаю, вы после последнего типа.
В действительности, наиболее распространенным и приемлемым графиком для передачи результатов t-теста 1 другим (за исключением того, является ли он на самом деле наиболее подходящим) является гистограмма средних значений со стандартными столбцами ошибок. Это очень хорошо соответствует t-критерию, поскольку t-критерий сравнивает два средних с использованием их стандартных ошибок. Когда у вас есть две независимые группы, это даст интуитивную картину, даже для статистически неискушенных, и (с учетом данных) люди могут «сразу увидеть, что они, вероятно, из двух разных групп населения». Вот простой пример с использованием данных @Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Тем не менее, специалисты по визуализации данных обычно презирают эти графики. Их часто выводят как «динамитные графики» (ср. « Почему динамитные графики плохие» ). В частности, если у вас есть только несколько данных, часто рекомендуется просто показать сами данные . Если точки перекрываются, вы можете дрожать по горизонтали (добавить небольшое количество случайного шума), чтобы они больше не перекрывались. Поскольку t-тест в основном касается средних и стандартных ошибок, лучше всего наложить средние и стандартные ошибки на такой график. Вот другая версия:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Если у вас много данных, блочные диаграммы могут быть лучшим выбором для быстрого обзора дистрибутивов, и вы можете наложить на них средства и SE там же.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Простые графики данных и блокпосты достаточно просты, чтобы большинство людей могли их понять, даже если они не очень разбираются в статистике. Имейте в виду, однако, что ни один из них не позволяет легко оценить обоснованность использования t-теста для сравнения ваших групп. Эти цели лучше всего обслуживать различные виды сюжетов.
1. Обратите внимание, что это обсуждение предполагает независимый выборочный t-критерий. Эти графики могут быть использованы с t-тестом зависимых выборок, но в этом контексте они также могут вводить в заблуждение (см. « Неправильно ли использование шкал ошибок для средних показателей в рамках исследования внутри субъекта» ).