Почему мы используем односторонний тест F-критерий в дисперсионном анализе (ANOVA)?

Можете ли вы указать причину использования одностороннего теста в анализе дисперсионного теста?

Почему мы используем тест с одним хвостом - F-тест - в ANOVA?

Несколько вопросов, которые помогут вам понять ... Что означает очень негативная статистика? Возможна ли отрицательная F-статистика? Что означает очень низкая F статистика? Что означает статистика с высоким F?

— Расселпирс

Почему у вас сложилось впечатление, что односторонний тест должен быть F-тестом? Чтобы ответить на ваш вопрос: F-тест позволяет проверить гипотезу с более чем одной линейной комбинацией параметров.

— IMA

Хотите знать, почему можно использовать односторонний, а не двусторонний тест?

— Йенс Курос

@tree, что представляет собой заслуживающий доверия или официальный источник для ваших целей?

— Glen_b

@tree обратите внимание, что вопрос Cynderella здесь не о проверке дисперсий, а конкретно о F-тесте ANOVA, который является тестом на равенство средних . Если вас интересуют тесты на равенство отклонений, это обсуждалось во многих других вопросах на этом сайте. (Для теста на дисперсию да, вы заботитесь об обоих хвостах, как ясно объяснено в последнем предложении этого раздела , прямо над « Свойствами »)

— Glen_b

Ответы:

F-тесты чаще всего используются для двух целей:

в ANOVA для проверки равенства средств (и различных аналогичных анализов); и
в тестировании равенства дисперсий

Давайте рассмотрим каждый по очереди:

1) F-тесты в ANOVA (и аналогично обычным видам тестов хи-квадрат для данных подсчета) строятся таким образом, чтобы чем больше данные соответствовали альтернативной гипотезе, тем больше будет статистика теста, в то время как выборка выборки данные, которые выглядят наиболее совместимыми с нулем, соответствуют наименьшим значениям тестовой статистики.

Рассмотрим три выборки (размером 10, с одинаковой дисперсией выборки) и расположите их так, чтобы они имели одинаковые средние значения выборки, а затем переместите их средние значения в разные шаблоны. Поскольку изменение в средстве выборки увеличивается с нуля, статистика F становится больше:

Композиции из 3-х образцов и соответствующей F-статистики

Черные линии () являются значениями данных. Тяжелые красные линии ( $^{\:_|}$ $\color{red}{\mathbf{|}}$ ) означают групповые значения.

Если бы нулевая гипотеза (равенство средних чисел) была верной, вы ожидали бы некоторого изменения средних значений выборки и обычно ожидали бы увидеть коэффициенты F примерно в районе 1. Меньшая статистика F получается в результате выборок, которые находятся ближе друг к другу, чем обычно ожидайте ... так что вы не собираетесь делать вывод, что население отличается.

То есть для ANOVA вы отвергнете гипотезу о равенстве средних, когда вы получите необычно большие F-значения, и не отвергнете гипотезу о равенстве средних, когда вы получите необычно маленькие значения (это может что-то указывать , но не что значит население отличается).

Вот иллюстрация, которая может помочь вам увидеть, что мы хотим отказаться, только когда F находится в верхнем хвосте:

2) F тесты на равенство дисперсии * (на основе коэффициентов дисперсии). Здесь отношение двух выборочных оценок дисперсии будет большим, если дисперсия выборки числителя будет намного больше, чем дисперсия в знаменателе, и отношение будет небольшим, если дисперсия выборки знаменателя будет намного больше, чем дисперсия в числителе.

То есть, для проверки, отличается ли отношение дисперсий населения от 1, вы должны отклонить нуль как для больших, так и для малых значений F.

* (Оставляя в стороне вопрос высокой чувствительности к распределенному допущению этого теста (есть лучшие альтернативы), а также проблему, заключающуюся в том, что если вы заинтересованы в пригодности предположений ANOVA о равных дисперсиях, ваша лучшая стратегия, вероятно, не формальный тест.)

— Glen_b - Восстановить Монику
источник

Тест @TaylerJones Levene несколько более надежный. Браун-Форсайт более крепок (но теряет немного энергии, близкий к нормальному). Флингер-Киллин еще раз так. В течение нескольких десятилетий я использовал Левен или Браун-Форсайт не более двух раз каждый. (Если это произойдет снова, скорее всего, что-то вроде Брауна-Форсайта мне подойдет, но у меня нет ситуаций, когда имеет смысл проверять различия в нескольких группах на равенство.)

— Glen_b -Reinstate Monica

F = \frac{M S_{T R E A T M E N T}}{M S_{E R R O R}}

$F=\frac{MS_{TREATMENT}}{MS_{ERROR}}$

1

$1$

F

$F$

@ Дерево звучит так, как будто вы не понимаете что-то о проверке гипотез в более общем плане, но трудно точно определить, где именно. Вы говорите, что понимаете, что если вы получаете большое F, вы хотите отказаться, а если вы получаете маленькое F, вы не хотите отказываться. Большие значения F - это значения в верхнем хвосте, в то время как малые значения F - это значения в нижнем хвосте. Вы хотите отклонить, только когда значения велики ... т.е. в верхнем хвосте, но не в нижнем. Как вы можете не видеть, что это один хвост? Я включу другой сюжет, который может помочь.

— Glen_b

@jeramy Мои комментарии относятся к тестам, основанным на коэффициентах отклонений (в частности, я заявил: « Здесь соотношение двух выборочных оценок отклонений будет ...»). Тесты, на которые вы ссылаетесь, для поиска различий местоположения в абсолютных невязках из некоторой меры местоположения, чтобы определить различия в разбросе; они, естественно, работают так, как работают тесты для определения различий в местоположении. Так как я пытался показать случай, когда вы посмотрели бы на нижний хвост F, Браун-Форсайт (и некоторые другие тесты, которые ищут различия местоположений в некоторой мере отклонения, чтобы вывести различия в разбросе) не помогли бы

— Glen_b -Восстановить Монику

@jeramy Я добавил несколько слов, чтобы сделать его более понятным. Вы можете заметить, что, хотя Браун-Форсайт, Левен и т. Д. Используют F-таблицы, распределение статистики теста на самом деле не F-распределено, даже в предположениях теста.

— Glen_b

Следует понимать, что цель ANOVA состоит в том, чтобы проверить, существует ли неравенство средних значений ... что подразумевает, что мы имеем дело с большими вариациями между выборками (и, следовательно, средними значениями, которые рассчитываются из средних значений) по сравнению с вариациями внутри выборок. (снова вычисляется из среднего значения для отдельной выборки). Когда различия между выборками невелики (что приводит к значению F на левой стороне), это не имеет значения, так как эта разница незначительна. Различия между образцами имеют значение, если они значительно выше, чем в пределах вариаций, и в этом случае значение F будет больше 1, и, следовательно, в правом хвосте.

Остается только один вопрос: зачем ставить весь уровень значимости в правильном хвосте, и ответ снова схож. Отклонение происходит только тогда, когда коэффициент F находится на правой стороне и никогда, когда коэффициент F находится на левой стороне. Уровень значимости является мерой ошибки из-за статистических ограничений. Так как отклонение происходит только справа, весь уровень значимости (риск ошибки из-за заблуждения) остается правильным. `

— Проф Прадип Пай
источник

Ожидаемое значение для среднего квадрата (MS) в рамках лечения представляет собой дисперсию популяции, в то время как ожидаемое значение для MS между обработками представляет собой дисперсию популяции плюс дисперсию лечения. Таким образом, отношение F = MSbetween / MSwithin всегда больше 1 и никогда не меньше 1.

Поскольку точность теста с 1 хвостом лучше, чем тест с 2 хвостами, мы предпочитаем использовать тест с 1 хвостом.

— Джефф Коттер
источник

Я не верю, что утверждение в последнем предложении вашего первого абзаца является правильным ... E (числитель)> E (знаменатель) не означает, что числитель> знаменатель.

— Glen_b

Помимо точки зрения Glen_b, я не уверен насчет того, «поскольку точность теста с 1 хвостом лучше, чем тест с 2 хвостами, мы предпочитаем использовать тест с 1 хвостом». Можете ли вы объяснить, что вы подразумеваете под этим? Разговор о точности кажется мне упущенным.

— Серебряная рыба

Точность равна половине доверительного интервала. Для того же F-stat, тест с 1 хвостом отвергнет нулевую гипотезу с меньшим p-значением (фактически половина). С другой стороны, тест с 1 хвостом может отклонить нулевую гипотезу с меньшими значениями F-стат. Это подразумевает, что тест с 1 хвостом может обнаружить эффект лечения с меньшим количеством образцов или с более частой дисперсией причины, присутствующей в образце. Это делает тест на 1 хвост более желательным, если вы ищете эффект.

— Джефф Коттер

Да, рассчитанная F-статистика может быть меньше 1,0. Тем не менее, заключение будет не в состоянии отвергнуть нулевую гипотезу «нет эффектов лечения». Следовательно, в нижней части нет критической области. Таким образом, F-тест - это верхний односторонний тест. В ANOVA логический аргумент основан на ожидаемых значениях для MS_treat и MS_error. Согласно гипотезе «отсутствие эффекта лечения», H0: E (MS_treat) = E (MS_error) = популяционная дисперсия. Любой значительный эффект лечения приводит к HA: E (MS_treat)> E (MS_error). (Источник любой текст Монтгомери, охватывающий ANOVA). Таким образом, ГА подразумевает односторонний тест.

— Джефф Коттер