Почему F-критерий так чувствителен к предположению о нормальности?

16

Почему F- критерий для различия в разнице так чувствителен к предположению о нормальном распределении, даже для большого $N$ ?

Я пытался искать в Интернете и посещал библиотеку, но ни один из них не дал хороших ответов. Это говорит о том, что тест очень чувствителен к нарушению предположения о нормальном распределении, но я не понимаю, почему. У кого-нибудь есть хороший ответ на это?

normality-assumption f-test

— Магнус Йоханнесен
источник

6

Какой

тест

F

$F$ вас интересует?

— С. Коласса - Восстановить Монику

F-тест для измерения разницы в дисперсии.

— Магнус Йоханнесен

35

Я предполагаю, что вы имеете в виду F-тест для отношения дисперсий при тестировании пары выборочных дисперсий на равенство (потому что это самый простой, довольно чувствительный к нормальности; F-тест для ANOVA менее чувствителен)

Если ваши выборки взяты из нормальных распределений, выборочная дисперсия имеет масштабированное распределение хи-квадрат

Представьте, что вместо данных, взятых из нормальных распределений, у вас было распределение, которое было более узким, чем обычно. Тогда вы получите слишком много больших отклонений относительно этого масштабированного распределения хи-квадрат, и вероятность того, что выборочная дисперсия попадет в крайний правый хвост, очень чувствительна к хвостам распределения, из которого были взяты данные =. (Также будет слишком много небольших отклонений, но эффект будет менее выраженным)

Теперь, если обе выборки взяты из этого более тяжелого хвостового распределения, больший хвост в числителе вызовет превышение больших значений F, а больший хвост в знаменателе приведет к превышению малых значений F (и наоборот для левого хвоста)

Оба этих эффекта могут привести к отклонению в двустороннем тесте, даже если оба образца имеют одинаковую дисперсию . Это означает, что когда истинное распределение имеет более узкие значения, чем обычно, фактические уровни значимости имеют тенденцию быть выше, чем мы хотим.

И наоборот, отбор выборки из более легкого хвостового распределения приводит к распределению выборочных дисперсий, у которых слишком короткий хвост - значения дисперсии имеют тенденцию быть более «средними», чем вы получаете с данными из нормальных распределений. Опять же, удар сильнее в дальнем верхнем хвосте, чем в нижнем.

Теперь, если обе выборки взяты из этого распределения с более светлыми хвостами, это приводит к превышению значений F около медианы и слишком небольшому количеству в обоих хвостах (фактические уровни значимости будут ниже, чем желательно).

Эти эффекты не обязательно значительно уменьшаются при увеличении размера выборки; в некоторых случаях это кажется хуже.

В качестве частичной иллюстрации приведено 10000 выборочных дисперсий (для $n=10$ ) для нормального, $t_5$ и равномерного распределений, масштабированных так, чтобы иметь то же среднее значение, что и $\chi^2_9$ :

Немного трудно увидеть дальний хвост, поскольку он относительно мал по сравнению с пиком (и для $t_5$ наблюдения в хвосте простираются довольно далеко от того места, где мы планировали), но мы можем увидеть кое-что из эффекта на распределение по дисперсии. Возможно, еще более поучительно преобразовать их с помощью обратного к хи-квадрату cdf,

который в нормальном случае выглядит равномерно (как и должно быть), в t-случае имеет большой пик в верхнем хвосте (и меньший пик в нижнем хвосте), а в однородном случае более гористый, но с широким пик около 0,6-0,8, и крайние значения имеют гораздо меньшую вероятность, чем они должны были бы, если бы мы отбирали образцы из нормальных распределений.

$F_{9,9}$

$t_5$

Было бы много других случаев для полного исследования, но это, по крайней мере, дает представление о типе и направлении воздействия, а также о том, как оно возникает.

— Glen_b - Восстановить Монику
источник

1

Действительно хорошая демонстрация

— shadowtalker

3

Как блестяще проиллюстрировал Glen_b в своих симуляциях, F-критерий для отношения дисперсий чувствителен к хвостам распределения. Причина этого заключается в том, что дисперсия выборочной дисперсии зависит от параметра эксцесса, и поэтому эксцесс лежащего в основе распределения сильно влияет на распределение отношения дисперсий выборки.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{N}^{2}}{S_{N}^{2}} \overset{приблизительно}{~} \frac{N - 1}{N - 1} + \frac{N - N}{N - 1} \cdot F (D F_{С}, D F_{N}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

где степени свободы (которые зависят от основного куртоза $\kappa$

D F_{N} знак равно \frac{2 N}{κ - (N - 3) / (N - 1)} D F_{С} знак равно \frac{2 (N - N)}{2 + (κ - 3) (1 - 2 / N + 1 / N N)},

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

В особом случае мезокуртического распределения (например, нормальное распределение) у вас есть $\kappa=3$ , который дает стандартные степени свободы $DF_n = n-1$ и $DF_C = N-n$ ,

Хотя распределение дисперсии-отношение чувствительно к нижележащему эксцессу, это на самом деле не очень чувствительно к нормальности в себе . Если вы используете мезокуртовое распределение, отличное от нормального, вы обнаружите, что стандартное приближение F-распределения работает достаточно хорошо. На практике лежащий в основе эксцесс неизвестен, поэтому реализация приведенной выше формулы требует замены оценщика $\hat{\kappa}$ , При такой замене приближение должно работать достаточно хорошо.

$^\dagger$ Обратите внимание, что этот документ определяет дисперсию населения, используя поправку Бесселя (по причинам, указанным в документе, с. 282-283). Таким образом, знаменатель дисперсии населения $N-1$ в этом анализе не $N$ , (Это на самом деле более полезный способ сделать что-либо, поскольку тогда дисперсия населения является несмещенной оценкой параметра дисперсии суперопопуляции.)

— Восстановить Монику
источник

+1 Это очень интересный пост. Конечно, с мезокуртическими распределениями сложнее сделать так, чтобы распределение отношения дисперсии было как можно дальше от F с полным диапазоном выбора распределения, но это не так сложно идентифицировать случаи (при размере выборки в моем ответе 10 и 10) где фактическая частота ошибок типа I более чем немного отличается от номинальной 0,05. Первые 3 случая, которые я попробовал (распределения с эксцентричным населением = 3 - все они также симметричны), имели показатели отторжения I типа 0,0379, 0,0745 и 0,0785. ... ctd

— Восстановить Монику

ctd ... У меня мало сомнений в том, что более экстремальные случаи можно отождествить с небольшим размышлением о том, как сделать приближение хуже. Я полагаю, что это (что уровень значимости не будет сильно затронут), однако, может быть лучше в больших выборках.

— Glen_b