Что вы будете делать, если ваши степени свободы пройдут конец ваших столов?


11

Степени свободы в моей F-таблице недостаточно высоки для моей большой выборки.

Например, если у меня есть F с 5 и 6744 степенями свободы, как мне найти 5% критическое значение для ANOVA?

Что если бы я делал тест хи-квадрат с большими степенями свободы?

[Подобный вопрос был опубликован некоторое время назад, но ОП допустил ошибку и на самом деле имел меньшую df, уменьшив ее до дубликата - но исходный вопрос большой df должен иметь ответ где-то на сайте]


1
Получить большой стол?
Федерико Полони,

Ответы:


16

F таблицы :

  1. Самый простой способ - если вы можете - использовать статистический пакет или другую программу, чтобы дать вам критическое значение. Так, например, в R мы можем сделать это:

     qf(.95,5,6744)
    [1] 2.215425
    

    (но вы можете также легко вычислить точное значение p для вашего F).

  2. Обычно F столы поставляются с «бесконечными» степенями свободы в конце стола, но некоторые не имеют. Если у вас действительно большой df (например, 6744 очень большой), вы можете использовать вместо него запись infinity ( ).

    Таким образом, у вас могут быть таблицы для которые дают 120 df и df:ν1=5

          ...    5      ...
     ⁞
    120        2.2899   
     ∞         2.2141
    

    ДФ строки будет работать для любого действительно большой (знаменатель ФР). Если мы используем это, мы имеем 2.2141 вместо точного 2.2154, но это не так уж плохо.ν2

  3. Если у вас нет бесконечного ввода степеней свободы, вы можете получить его из таблицы хи-квадрат, используя критическое значение для числителя df, деленное на эти df

    Так, например, для критического значения возьмите критическое значение и разделите на . Критическое значение 5% для составляет . Если мы разделим на , это что является строкой из таблицы выше.F5,χ525χ5211.070552.2141

  4. Если ваши степени свободы могут быть слишком малы, чтобы использовать запись «бесконечность» (но все же намного больше, чем 120 или что бы ваша таблица ни подходила), вы можете использовать обратную интерполяцию между наибольшим конечным df и записью бесконечности. Допустим, мы хотим вычислить критическое значение для dfF5,674

       F       df     120/df    
     ------   ----    -------
     2.2899    120      1     
       C       674    0.17804
     2.2141     ∞       0    
    

    Затем мы вычисляем неизвестное критическое значение, какC

    C2.2141+(2.28992.2141)×(0.178040)/(10)2.2276

    (Точное значение , так что это работает довольно хорошо.)2.2274

    Более подробная информация об интерполяции и обратной интерполяции дана в этом связанном посте.


Таблицы хи-квадрат :

Если ваш хи-квадрат действительно велик, вы можете использовать обычные таблицы, чтобы получить приближение.

Для больших df распределение хи-квадрат примерно нормальное со средним и дисперсией . Чтобы получить верхнее 5% -ное значение, возьмите одностороннее 5% -ное критическое значение для стандартного нормального значения ( ), умножьте на и добавьте .νν2ν1.6452νν

Например, представьте, что нам нужно верхнее 5% критическое значение для .χ67442

Мы рассчитали бы . Точный ответ (до значимых цифр) .1.645×2×6744+6744693556936.2

Если степени свободы меньше, мы можем использовать тот факт, что если равен то .Xχν22X˙N(2ν1,1)

Так, например, если бы у нас было df, мы могли бы использовать это приближение. Точное верхнее 5% критическое значение для хи-квадрат с 674 df составляет (до 5 цифр) . В этом приближении мы рассчитали бы следующее:674735.51

Возьмите верхнее (одностороннее) 5% критическое значение для стандартного нормального значения (1.645), добавьте , возведите в квадрат сумму и разделите на 2. В этом случае:2ν1

(1.645+2×6741)2/2735.2 .

Как видим, это довольно близко.

Для значительно меньших степеней свободы можно использовать преобразование Уилсона-Хилферти - оно хорошо работает вплоть до нескольких степеней свободы - но таблицы должны охватывать это. Это приближение ,(Xν)13˙N(129ν,29ν)


2
+1 Идею можно улучшить. Используйте тот факт, что ограничивается рациональной функцией распределения поскольку его второй параметр становится большим. В , например, вы бы вычислить его как . Вы получите , с точностью до трех значащих цифр. Обратите внимание, что параметр - это небольшое целое число, указывающее , что он, вероятно, будет в таблице и доступен без интерполяции. F χ 2 2,2177 χ 2χ2Fχ2Rdf2/df1 * (-1 + 1/(1-qchisq(0.95, df1) / df2))2.2177χ2
whuber

Я предполагаю, что что-то здесь упустил - я несколько раз пытался выяснить, какое преимущество вы имеете в этом улучшении по сравнению с тем, что я сделал в пункте 3 (который уже рассматривает это как простую функцию хи-квадрат с малым целым числом df, как следует из теоремы Слуцкого как df2 ). В данном примере мое приближение проще и точнее (например, имеет около 57% абсолютной погрешности). Лучше ли это предположение при других значениях двух df или лучше, потому что оно консервативное, а не антиконсервативное ...
Glen_b -Восстановить Монику

... или намерение, что ошибки двух подходов будут противоположными в направлении (предлагая, возможно, объединить два?).
Glen_b

Я помню, что имел в виду пункт 4.
whuber

Ах, это может иметь больше смысла. Извините, чтобы быть плотным. Я попробую это снова.
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.