Какие предположения нормальности требуются для непарного t-теста? И когда они встретились?


12

Если мы хотим провести парный t-тест, необходимо (если я правильно понимаю), что средняя разница между согласованными единицами измерения будет распределена нормально.

В парном t-тесте это сформулировано (AFAIK) в требовании, чтобы разница между подобранными единицами измерения была распределена нормально (даже если распределение каждой из двух сравниваемых групп не является нормальным).

Однако в непарном t-тесте мы не можем говорить о разнице между подобранными единицами, поэтому мы требуем, чтобы наблюдения из двух групп были нормальными, чтобы разность их среднего значения была нормальной. Что приводит меня к моему вопросу:

Возможно ли для двух ненормальных распределений так, чтобы разность их средств распространялась нормально? (и, таким образом, удовлетворить наше необходимое требование для проведения непарного t-теста над ними - опять же - насколько я понимаю).

Обновление: (спасибо всем за ответы) Я вижу, что общее правило, которое мы ищем, действительно заключается в том, что различие средних будет нормальным, что, по-видимому, является хорошим предположением (при достаточно большом n) из-за CLT. Это удивительно для меня (не удивительно, просто удивительно), как то, как это работает для непарного t-теста, но не будет работать так же для одиночного t-теста. Вот некоторый код R для иллюстрации:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Благодарю.


5
Конечно . Пусть будет вашим двумерным образцом . Пусть имеет произвольное распределение и возьмем где - это iid . (Xi,Yi)XiFYi=Xi+Zi{Zi}N(0,σ2)
кардинал

Ответы:


17

На практике, Центральная предельная теорема уверяет нас, что при широком диапазоне допущений распределения двух тестируемых средних будут сами приближаться к нормальным распределениям по мере того, как размеры выборки становятся большими, независимо от того (где и появляются допущения) распределения базовых данных. Как следствие, когда размер выборки становится больше, разница средних значений становится нормально распределенной, и требования, необходимые для t-статистики непарного t-критерия, чтобы номинальное t-распределение удовлетворялись. Таким образом, более практичным вопросом может быть вопрос: насколько большим должен быть размер выборки, прежде чем я смогу безопасно игнорировать разницу между фактическим распределением статистики и распределением t?

Во многих случаях ответ «не очень большой», особенно когда базовые распределения довольно близки к симметричным. Например, я смоделировал 100 000 тестов, сравнивая средние значения двух равномерных (0,1) распределений, каждое с размером выборки 10, и при тестировании с уровнем достоверности 95% фактически отклонил нулевые 5,19% времени - практически не отличается от номинального 5% отказов, на которые мы надеемся (хотя это примерно 2,7 стандартных отклонения выше 5%.)

Вот почему люди используют t-критерий в самых разных ситуациях, когда базовые предположения фактически не выполняются, но, конечно, ваш пробег может варьироваться в зависимости от специфики вашей проблемы. Тем не менее, существуют другие тесты, которые не требуют нормальности, такие как критерий Уилкоксона, который, даже когда данные распределены нормально, асимптотически примерно на 95% эффективнее t-критерия (т. Е. Требует размер выборки N / 0,95, чтобы иметь ту же мощность, что и t-критерий с размером выборки N, так как N уходит в бесконечность). Когда данные не распределяются нормально, они могут быть (не обязательно будут) намного лучше, чем t-критерий.


6
По моему опыту, требуемый размер выборки для точного распределения часто больше, чем размер выборки под рукой. Критерий Уилкоксона является чрезвычайно эффективным , как вы сказали, и это прочный, так что я почти всегда предпочитают его на испытания. tt
Фрэнк Харрелл

Спасибо, Фрэнк, ваш комментарий помог мне сформулировать вопрос, который ближе к тому, что мне нужно
Tal

1

Конечно. Если бы это было не так, то независимый выборочный t-критерий не принес бы большой пользы. Нам действительно нужны большие размеры выборки, потому что для того, чтобы проверить разницу между двумя ненормальными группами населения, нам нужно обратиться в CLT.

Для быстрого примера давайте предположим, что у нас есть популяция 1, полученная из экспоненты со средним 25, и популяция 2, равномерно распределенная со средним 30. Мы даже дадим им разные размеры выборки. Мы можем проверить, как выглядит распределение различий в образце, используя R относительно легко, используя функцию репликации.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Игра с размерами выборки покажет, что при малых объемах выборки мы на самом деле не имеем нормальности, но увеличение размера выборки дает нам более нормальное распределение выборки для разницы в средних значениях. Конечно, вы можете изменить дистрибутивы, используемые в этом примере, для дальнейшего изучения. Hist (дифференциалы)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.