Т-критерий для ненормального, когда N> 50?


77

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда?

Если это правда, это из-за центральной предельной теоремы?


3
Похожий вопрос с очень хорошим ответом от Glen_b stats.stackexchange.com/questions/121852/…
Тим

Ответы:


83

Допущение нормальности t-теста

Рассмотрим большую популяцию, из которой вы можете взять много разных образцов определенного размера. (В конкретном исследовании вы обычно собираете только один из этих образцов.)

T-критерий предполагает, что средства разных образцов обычно распределены; это не предполагает, что население нормально распределено.

По центральной предельной теореме средние значения выборок из совокупности с конечной дисперсией приближаются к нормальному распределению независимо от распределения совокупности. Эмпирические правила гласят, что средние значения выборки обычно распределяются при условии, что размер выборки составляет не менее 20 или 30. Чтобы критерий Стьюдента действовал на выборке меньшего размера, распределение популяции должно быть приблизительно нормальным.

T-критерий недействителен для небольших выборок из ненормальных распределений, но он действителен для больших выборок из ненормальных распределений.

Небольшие выборки из ненормальных распределений

Как отмечает Майкл ниже, размер выборки, необходимый для распределения средств для приблизительной нормальности, зависит от степени ненормальности населения. Для примерно нормальных дистрибутивов вам не понадобится такая большая выборка, как очень ненормальный дистрибутив.

Вот некоторые симуляции, которые вы можете запустить в R, чтобы почувствовать это. Во-первых, вот пара распределений населения.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Далее приведены некоторые модели выборок из распределения населения. В каждой из этих строк «10» - это размер выборки, «100» - это количество выборок, а функция после этого определяет распределение населения. Они производят гистограммы выборочных средств.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Чтобы t-критерий был действительным, эти гистограммы должны быть нормальными.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Утилита t-теста

Я должен отметить, что все знания, которые я только что передал, несколько устарели; теперь, когда у нас есть компьютеры, мы можем сделать лучше, чем t-тесты. Как отмечает Фрэнк, вы, вероятно, захотите использовать тесты Уилкоксона везде, где вас учили запускать t-тест.


7
Хорошее объяснение (+1). Однако я хотел бы добавить, что размер выборки, необходимый для распределения средств для приблизительной нормальности, зависит от степени ненормальности населения. Для больших выборок нет причин предпочитать критерий Стьюдента тесту перестановок, который не делает предположений о распределениях.
Майкл Лью

2
+1 хотя, насколько я знаю, t-критерий довольно устойчив к умеренным отклонениям от нормы. Кроме того, интересное связанное обсуждение: stats.stackexchange.com/questions/2492/…
nico

4
хороший ответ, хотя есть одна маленькая деталь, которую вы пропустили: распределение данных должно иметь конечную дисперсию. T-критерий бесполезен для сравнения различий в расположении двух распределений Коши (или ученика с 2 степенями свободы) не потому, что он «ненадежен», а потому, что для этих распределений есть дополнительная релевантная информация в выборке, не имеющая значения и стандартные отклонения, которые выбрасывает t-критерий.
вероятностная

2
В дополнение к этому t-критерий также естественно дает доверительные интервалы для исследуемого параметра. (по-прежнему возражаю из-за двух первых абзацев, которые касаются вопроса напрямую, я просто сильно не согласен с третьим)
Эрик

7
t-тест НЕ требует нормальности населения. Это предположение необходимо для того, чтобы статистика t имела распределение t-Student. Если у вас нет нормальной популяции, вы не можете выразить статистику t как стандартную нормальную переменную, деленную на корень переменной Хи-квадрат, деленной на ее степени свободы. Возможно, вы пытаетесь сказать, что если некоторые условия выполняются, например, не слишком большая асимметрия или большая выборка, тест все еще может быть действительным, даже если популяция не является нормальной.
тонлой

44

Центральная предельная теорема менее полезна, чем можно подумать в этом контексте. Во-первых, как уже отмечалось, никто не знает, является ли текущий размер выборки «достаточно большим». Во-вторых, CLT больше относится к достижению желаемой ошибки типа I, чем к ошибке типа II. Другими словами, t-критерий может быть неконкурентоспособным по мощности. Вот почему тест Уилкоксона так популярен. Если нормальность сохраняется, она на 95% эффективнее t-критерия. Если нормальность не выполняется, она может быть произвольно более эффективной, чем критерий Стьюдента.


7
(+1) Добро пожаловать на сайт, который я рад, что вы нашли. Я с нетерпением жду вашего участия здесь.
кардинал

4
(+1) Хорошая мысль о Уилкоксоне.
whuber

18

Смотрите мой предыдущий ответ на вопрос о надежности t-теста .

В частности, я рекомендую поиграть с апплетом onlinestatsbook .

Изображение ниже основано на следующем сценарии:

  • нулевая гипотеза верна
  • довольно серьезная асимметрия
  • одинаковое распределение в обеих группах
  • одинаковая дисперсия в обеих группах
  • размер выборки на группу 5 (т. е. намного меньше 50 по вашему вопросу)
  • Я нажал кнопку 10000 симуляций примерно 100 раз, чтобы получить более миллиона симуляций.

Полученное моделирование показывает, что вместо 5% ошибок типа I я получал только 4,5% ошибок типа I.

Считаете ли вы это надежным, зависит от вашей точки зрения.

введите описание изображения здесь


4
+1 Хорошие очки. Однако сила t-критерия с искаженными альтернативами может сильно ухудшиться (до такой степени, что он практически равен нулю даже для огромных размеров эффекта).
whuber

6

h=0.24999

p=1041p

edit : duh, за уловку @ whuber в комментарии, пример, который я привел, не имел среднего нуля, поэтому тестирование среднего нуля не имеет ничего общего с типом I.

Поскольку пример лотереи часто имеет стандартное отклонение образца, равное нулю, t-критерий дросселирования. Поэтому вместо этого я приведу пример кода с использованием распределения Лерберта W x Гаусса Гёрга . Распределение, которое я здесь использую, имеет перекос около 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Этот код дает эмпирическую процент брака на номинальном уровне 0,05 для разных размеров выборки. Для выборки размером 50 эмпирический показатель составляет 0,40 (!); для выборки 250 - 0,29; для выборки 1000 - 0,21; для выборки 2000, 0,18. Очевидно, что t-критерий с одним образцом страдает от перекоса.


p=0

1

Центральная предельная теорема устанавливает (при необходимых условиях), что числитель t-статистики асимптотически нормален. Т-статистика также имеет знаменатель. Чтобы иметь t-распределение, вам нужно, чтобы знаменатель был независимым и имел квадратный корень из-за-чи-квадрат-на-своем-df.

И мы знаем, что он не будет независимым (что характеризует нормальное!)

Теорема Слуцкого в сочетании с CLT даст вам, что t-статистика асимптотически нормальна (но не обязательно с очень полезной скоростью).

Какая теорема установит, что t-статистика приблизительно t-распределена, когда есть ненормальность, и как быстро она поступает? (Конечно, в конечном итоге t- тоже приблизится к нормали, но мы предполагаем, что приближение к другому приближению будет лучше, чем просто использование нормального приближения ...)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
К сожалению, различие между некоррелированным и независимым уместно, если мы хотим получить t-распределение.
Glen_b

0

Да, Центральная предельная теорема говорит нам, что это правда. До тех пор, пока вы избегаете черт с чрезвычайно тяжелыми хвостами, ненормальность не представляет проблем в выборках от среднего до большого.

Вот полезный обзорный документ;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Тест Уилкоксона (упомянутый другими) может иметь ужасную силу, когда альтернатива не является изменением местоположения исходного распределения. Кроме того, способ измерения различий между распределениями не является транзитивным.


Интересные моменты о Вилкоксоне. Однако у t-теста есть аналогичные трудности: он особенно плох при обнаружении сдвигов, которые сопровождаются повышенной дисперсией. Немного о транзитивности, кажется, в основном любопытство в настоящем контексте; Трудно понять, насколько это актуально для первоначальной проверки гипотезы или ее интерпретации. (Но, возможно, непереходность может стать важной в условиях ANOVA или множественных сравнений.)
whuber

Неравномерный дисперсионный t-критерий (который используется в некоторых программах по умолчанию) не имеет проблемы с гетероскедастичностью.
гость

Относительно транзитивности; Сообщение о выборке означает, или различия в средствах (что естественно при использовании t-критерия) дает читателю то, что он может учитывать при отборе образцов из других групп населения. Нетранзитивность теста Уилкоксона означает, что у этого подхода нет такого аналога; использование рангов данных - очень ограниченный подход.
гость

1
(1) Тест Satterthwaite-Welch (неравная дисперсия) не преодолевает потерю мощности, о которой я говорил (хотя это может немного помочь). (2) Я думаю, что вы экстремально характеризуете использование рангов как «ограниченных». В своем ответе @Frank Harrell имел в виду исследования, показывающие, как тест Уилкоксона поддерживает высокую эффективность во многих условиях: это демонстрирует, как использование рангов является одновременно эффективным и более гибким, не более ограниченным, по сравнению с t-тестами.
whuber

(1) Нет, но это дает правильную частоту ошибок типа I в выборках от среднего до большого (2) Спасибо, но я с уважением не согласен. Использование t-тестов по Уилкоксону значительно упрощает преодоление разрыва между тестированием и использованием доверительных интервалов. Если кто-то только хочет пройти тестирование и никогда не выходит за пределы двух групп в исследовании, Уилкоксон, конечно, имеет ситуации, когда это работает хорошо. Но часто мы не хотим проводить только тестирование и хотим помочь пользователям обобщить результаты в других ситуациях; тогда тест Уилкоксона бесполезен.
гость

0

Об использовании теста Уилкоксона-Манна-Уитни в качестве альтернативы Я рекомендую статью « Тест Уилкоксона-Манна-Уитни» под пристальным вниманием

В качестве критерия средних или средних значений критерий Уилкоксона – Манна – Уитни (WMW) может быть крайне ненадежным для отклонений от модели чистого сдвига.

Вот рекомендации авторов статьи:

Преобразование ранга может по-разному изменять средние значения, стандартные отклонения и асимметрию двух выборок. Единственная ситуация, в которой преобразование ранга гарантированно обеспечивает положительный эффект, - это когда распределения идентичны, а размеры выборки равны. Для отклонений от этих довольно строгих предположений влияние преобразования ранга на выборочные моменты непредсказуемо. В имитационном исследовании статьи тест WMW сравнивался с тестом Флингера-Полиселло (FP), тестом Бруннера-Мунцеля (BM), T-тестом для двух образцов (T), U-тестом Уэлча (U), и тест Уэлча на звание (RU). Четыре ранговых теста (WMW, FP, BM и RU) выполнялись аналогично, хотя тест BM часто был немного лучше, чем другие. Когда размеры выборки были равны, параметрические тесты (T и U) превосходили ранговые тесты при нулевой гипотезе равных средних, но не при нулевой гипотезе равных медиан. Когда размеры выборки были неодинаковыми, тесты BM, RU и U показали лучшие результаты. Для некоторых параметров небольшие изменения свойств популяции привели к значительным изменениям в производительности тестов. Таким образом, приблизительный тест WMW для большой выборки может быть плохим методом для сравнения средних или медианных значений двух популяций, если только эти два распределения не имеют одинаковую форму и равные масштабы. Эта проблема также, по-видимому, в разной степени относится к точному тесту WMW, тесту FP, тесту BM и тесту Уэлча U по рангу. При использовании теста WMW авторы рекомендуют тщательно исследовать свойства ранжированных образцов на наличие признаков асимметрии и дисперсии неоднородности.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.