Допущение нормальности t-теста
Рассмотрим большую популяцию, из которой вы можете взять много разных образцов определенного размера. (В конкретном исследовании вы обычно собираете только один из этих образцов.)
T-критерий предполагает, что средства разных образцов обычно распределены; это не предполагает, что население нормально распределено.
По центральной предельной теореме средние значения выборок из совокупности с конечной дисперсией приближаются к нормальному распределению независимо от распределения совокупности. Эмпирические правила гласят, что средние значения выборки обычно распределяются при условии, что размер выборки составляет не менее 20 или 30. Чтобы критерий Стьюдента действовал на выборке меньшего размера, распределение популяции должно быть приблизительно нормальным.
T-критерий недействителен для небольших выборок из ненормальных распределений, но он действителен для больших выборок из ненормальных распределений.
Небольшие выборки из ненормальных распределений
Как отмечает Майкл ниже, размер выборки, необходимый для распределения средств для приблизительной нормальности, зависит от степени ненормальности населения. Для примерно нормальных дистрибутивов вам не понадобится такая большая выборка, как очень ненормальный дистрибутив.
Вот некоторые симуляции, которые вы можете запустить в R, чтобы почувствовать это. Во-первых, вот пара распределений населения.
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
Далее приведены некоторые модели выборок из распределения населения. В каждой из этих строк «10» - это размер выборки, «100» - это количество выборок, а функция после этого определяет распределение населения. Они производят гистограммы выборочных средств.
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Чтобы t-критерий был действительным, эти гистограммы должны быть нормальными.
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Утилита t-теста
Я должен отметить, что все знания, которые я только что передал, несколько устарели; теперь, когда у нас есть компьютеры, мы можем сделать лучше, чем t-тесты. Как отмечает Фрэнк, вы, вероятно, захотите использовать тесты Уилкоксона везде, где вас учили запускать t-тест.