При проведении t-теста, почему предпочтительнее предполагать (или проверять) равные дисперсии, а не всегда использовать приближение Уэлча для df?


47

Кажется, что, когда предположение об однородности дисперсии встречается, результаты скорректированного по Уэлчу t-критерия и стандартного t-критерия примерно одинаковы. Почему бы просто не всегда использовать отрегулированный Welch t?

Ответы:


33

Я хотел бы возразить против двух других ответов, основанных на статье (на немецком языке) Kubinger, Rasch and Moder (2009) .

Они утверждают, что, основываясь на «обширных» имитациях из распределений, которые либо соответствуют, либо не соответствуют предположениям, наложенным t-тестом (нормальность и однородность дисперсии), что тесты Уэлча работают одинаково хорошо при выполнении предположений (то есть, в основном, одинаковы) вероятность совершения альфа- и бета-ошибок), но превосходит критерий Стьюдента, если предположения не выполняются, особенно с точки зрения мощности. Поэтому они рекомендуют всегда использовать тест Уэлча, если размер образца превышает 30.

В качестве мета-комментария: Для людей, интересующихся статистикой (таких как я и, вероятно, большинство других здесь), аргумент, основанный на данных (как мой), должен по меньшей мере равным образом считаться аргументами, основанными исключительно на теоретических основаниях (как и другие здесь).


Обновление:
Обдумав эту тему еще раз, я нашел еще две рекомендации, из которых новая помогает мне в этом. Посмотрите на оригинальные статьи (которые оба, по крайней мере для меня, в свободном доступе) для аргументов, которые приводят к этим рекомендациям.

Первая рекомендация была получена от Грэма Д. Рекстона в 2006 году: « Если вы хотите сравнить центральную тенденцию 2 популяций на основе выборок несвязанных данных, то t-критерий неравной дисперсии всегда следует использовать вместо t-критерия Стьюдента или Манна-Уитни U тест. "
в:
Ruxton, GD, 2006 неравномерное дисперсия т-тест является недогружено альтернативой Т-тест Стьюдента и тест Mann-Whitney U . Behav. Экол . 17, 688–690.

Вторая (более старая) рекомендация принадлежит Coombs et al. (1996, стр. 148): « Таким образом, t-критерий независимых выборок в целом приемлем с точки зрения контроля частоты ошибок типа I при условии, что имеются достаточно большие выборки одинакового размера, даже когда допущение равной дисперсии совокупности нарушается. Для неравных выборок, однако, предпочтительнее использовать альтернативу, которая не предполагает одинаковую дисперсию совокупности. Используйте критерий Джеймса второго порядка, когда распределения либо короткохвостые, либо симметричные, либо нормальные. Перспективными альтернативами являются критерии усеченных средних Уилкокса Н и Юэна, которые обеспечивают более широкий контроль частоты ошибок типа I, чем тест Уэлча или тест Джеймса, и имеют большую мощность, когда данные длиннохвосты ». (выделение добавлено)
В:
Кумбс У.Т., Альгина Дж., Олтман Д., 1996 г. Однофакторные и многомерные тесты множественных гипотез, выбранные для контроля частоты ошибок типа I, когда отклонения совокупности не обязательно равны . Rev Educ Res 66: 137–79.


3
Мета-ответ: Хороший вопрос. Но ваши данные могут не вести себя как мои! :-)
whuber

Хенрик, не возражаете, если я отредактирую ответ, чтобы: (1) изменить терминологию, вызвав тесты t-критерий Стьюдента и t-критерий Уэлча (как я нашел в большинстве литературных источников); (2) включите другой документ, который предлагает это в обсуждении: rips-irsp.com/article/10.5334/irsp.82 (он подчеркивает смещение, которое происходит, когда вы выбираете тесты, основанные на тесте однородности Левена).
Бруно

13

Конечно, можно отказаться от обоих тестов и начать использовать байесовский t-критерий (критерий отношения Сэвиджа-Дики), который может учитывать неравные и неравные отклонения, и, что лучше всего, он позволяет количественно оценить доказательства в пользу нулевая гипотеза (что означает, что больше нет старых разговоров о «отказе»)

Этот тест очень прост (и быстр) для реализации, и есть документ, который ясно объясняет читателям, не знакомым с байесовской статистикой, как его использовать, вместе со сценарием R. Вы можете просто вставить свои данные и отправить команды в консоль R:

Wetzels R., Raaijmakers, JGW, Jakab E., & Wagenmakers, E.-J. (2009). Как количественно оценить поддержку и против нулевой гипотезы: гибкая реализация WinBUGS байесовского t-теста по умолчанию.

для этого есть также учебник с примерами данных:

http://www.ruudwetzels.com/index.php?src=SDtest

Я знаю, что это не прямой ответ на вопрос, но я подумал, что читателям может понравиться эта хорошая альтернатива

ура


8
всегда эти байесовские парни ...
Хенрик

3
Другой байесовской альтернативой t-критерию является процедура BEST (байесовская оценка заменяет t-критерий). Более подробная информация здесь: indiana.edu/~kruschke/BEST . Онлайн версия здесь: sumsar.net/best_online .
Расмус Батх

7

Потому что точные результаты предпочтительнее приближений, и избегайте нечетных краевых случаев, когда приближение может привести к результату, отличному от точного метода.

Метод Уэлча не является более быстрым способом выполнения любого старого t-теста, это подходящее для решения очень трудной проблемы: как построить t-тест при неравных отклонениях. Случай равной дисперсии понятен, прост и точен, и поэтому всегда должен использоваться, когда это возможно.


6
Я думаю , что , как правило, согласен с Джоном Тьюками - «Гораздо лучше приблизительный ответ на правильный вопрос, который часто расплывчат, чем точный ответ на неправильный вопрос, который всегда может быть уточнен »
Glen_b

4
Сам t-критерий равной дисперсии (Стьюдента) является просто (непонятным) приближением, когда дисперсии выборки населения неодинаковы. Поэтому, если не известно, что дисперсии населения равны, лучше использовать приближение к правильному распределению выборки (Welch-Satterthwaite), чем использовать совершенно точное распределение, которое не применяется к модели данных.
whuber

4

Я могу придумать две причины:

  1. Обычный студент Т довольно устойчив к гетероскедастичности, если размеры выборки равны.

  2. Если вы априори твердо убеждены в том, что данные гомоскедастичны, то вы ничего не потеряете и можете получить небольшое количество энергии, используя Students T вместо Welch T.

Одна причина, которую я бы не назвал, состоит в том, что T ученика является точным, а T Уэлча - нет. ИМХО, точность Т студента является академической, потому что она точна только для нормально распределенных данных, и никакие реальные данные точно не распределены нормально. Я не могу представить себе единственную величину, которую люди на самом деле измеряют и анализируют статистически, где распределение могло бы иметь поддержку всех реальных чисел. Например, во вселенной очень много атомов, и некоторые величины не могут быть отрицательными. Поэтому, когда вы используете какой-либо T-тест на реальных данных, вы все равно делаете приближение.


2
(1) неверно, когда основные различия населения сильно различаются. В качестве крайнего случая - чтобы понять, почему это так, - рассмотрим, что происходит, когда одна популяция вообще не имеет различий. Студент фактически будет сравнивать данные из другой группы с константой, но он подумает, что у него вдвое больше степеней свободы. Ошибка, которую он делает, была бы сопоставима с использованием Z-теста.
whuber

Хотя это правда @whuber, это только для очень экстремальных случаев. Я просто смотрел на разницу дисперсии 1e6: 1 и p ≈ 0,053. Так что это может случиться, но я все еще утверждаю, что это довольно надежно с равным N.
Джон

ni

@whuber, я просто предполагаю, что, хотя ваш комментарий выше является технически верным, исправление Уэлча не является решением проблемы, которую вы представляете в качестве примера, и даже не очень критично к устойчивости теста с точки зрения альфа-скоростей. (что обычно означает (1)). Как вы предполагаете, когда (крайняя) неравная дисперсия является проблемой, у вас есть другие проблемы, но это действительно другая тема.
Джон

3

Тот факт, что что-то более сложное сводится к чему-то менее сложному, когда проверяется некоторое предположение, недостаточно, чтобы отбросить более простой метод.


4
Особенно в том, что касается студентов.
Мэтт Паркер

2

Я бы взял противоположную точку зрения здесь. Зачем беспокоиться о тесте Уэлча, если стандартный непарный t-критерий Стьюдента дает почти идентичные результаты. Я изучил эту проблему некоторое время назад, и я исследовал ряд сценариев, пытаясь сломать t-тест и отдать предпочтение тесту Уэлча. Для этого я использовал выборки в 5 раз больше для одной группы по сравнению с другой. И я исследовал различия в 25 раз больше для одной группы по сравнению с другой. И это действительно не имело никакого материального значения. Непарный t-тест по-прежнему генерировал диапазон значений p, которые были почти идентичны тесту Уэлча.

Вы можете увидеть мои работы по следующей ссылке и сосредоточиться на слайдах 5 и 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family


Извините, а чем вы отличаете формулу большого образца от формулы малого образца? Вы рассчитываете дисперсию, используя формулу населения в больших выборках, а не выборочную оценку дисперсии населения?
Расселпирс

Непарный критерий Стьюдента имеет две формулы. Формула большой выборки применяется к выборкам с более чем 30 наблюдениями. Формула малой выборки применяется к выборкам с менее чем 30 наблюдениями. Основное различие в этих формулах состоит в том, как они вычисляют объединенную стандартную ошибку. Формула малого образца гораздо сложнее и нелогичнее. И на самом деле это действительно мало что меняет. Я проверял это несколько раз. Вот почему я думаю, что большинство людей забыли об этом различии. И они большую часть времени используют формулу большой выборки.
Симпа

0

Это правда, что частые свойства исправленного теста Уэлча лучше, чем у обычного критерия Стьюдента, по крайней мере, для ошибок. Я согласен, что одно это довольно хороший аргумент для теста Уэлча. Тем не менее, я обычно не рекомендую исправление Уэлча, потому что оно часто обманчиво. Что, по общему признанию, не является критикой самого теста.

Причина, по которой я не рекомендую поправку Уэлча, заключается в том, что она не просто меняет степени свободы и последующее теоретическое распределение, из которого берется значение p. Это делает тест непараметрическим. Чтобы выполнить t-критерий, скорректированный по Уэлчу, еще нужно объединить дисперсию, как если бы можно было предположить равную дисперсию, но затем изменить окончательную процедуру тестирования, подразумевая, что нельзя предположить одинаковую дисперсию или что вы заботитесь только о выборочных дисперсиях. Это делает его непараметрическим тестом, поскольку объединенная дисперсия считается не репрезентативной для населения, и вы признали, что просто тестируете свои наблюдаемые значения.

Само по себе в этом нет ничего особенного. Тем не менее, я нахожу это обманчивым, потому что a) обычно об этом не сообщается с достаточной конкретностью; и б) люди, которые его используют, склонны думать об этом взаимозаменяемо с t-тестом. Единственный способ узнать, что это было сделано в опубликованных статьях, - это увидеть странный DF для t-распределения. Это был также единственный способ, которым Rexton (упомянутый в ответе Хенрика) мог сказать в обзоре. К сожалению, непараметрический характер исправленного Уэлча теста возникает независимо от того, изменились ли степени свободы или нет (т. Е. Даже если дисперсии образца равны). Но эта проблема с отчетностью является симптомом того факта, что большинство людей, использующих поправку Уэлча, не осознают, что произошли изменения в тесте.

Поэтому я считаю, что если вы собираетесь рекомендовать непараметрический тест, не используйте тот, который часто кажется параметрическим или, по крайней мере, очень четко понимает, что вы делаете. Официальное название теста должно быть непараметрическим Т-тестом с поправкой на Уэлч. Если бы люди сообщали об этом таким образом, я был бы намного счастлив с рекомендацией Хенрика.


Я не нашел поддержки в вашем ответе, почему тест Уэлча может быть «обманчивым». Не могли бы вы объяснить основание для этого?
whuber

Возможно, мои правки прояснили @whuber. Мне следовало ясно заявить, что это не гарантирует, что оно будет обманчивым, но часто является как для пользователя теста, так и для читателя результатов теста.
Джон

1
Спасибо. Помимо проблемы с отчетностью - которую было бы несправедливо характеризовать как ошибку теста! - это, похоже, сводится к некоторому возражению с вашей стороны, что тест Уэлча непараметрический. Что может быть с этим? При прочих равных условиях это следует считать преимуществом, а не проблемой.
whuber

1
Это различие, как правило, не ясно. Я признаю в ответе, что это не является проблемой само по себе, но большинство людей склонны рассматривать ее параметрически, что является ошибкой. Я не думаю, что здесь стоит обсуждать преимущества или издержки непараметрического тестирования. Кроме того, это не было упомянуто в теме, и это может быть проблемой для многих людей. Кроме того, два из нашего вводного класса статистики преподают его параллельно с t-тестом Стьюдента и продвигают его, но имеют отдельный раздел о непараметрических тестах.
Джон

Можете ли вы уточнить, что вы подразумеваете под «делает тест непараметрическим»?
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.