Теорема, на которую вы ссылаетесь (обычная часть сокращения «обычное уменьшение степеней свободы из-за оценочных параметров»), была в основном поддержана Р. А. Фишером. В «О интерпретации квадрата Чи из таблиц непредвиденных обстоятельств и расчете P» (1922) он приводил аргументы в пользу использования правила и в «Правильности соответствия форм регрессии» ( 1922) он утверждает, что уменьшает степени свободы на число параметров, используемых в регрессии для получения ожидаемых значений из данных. (Интересно отметить, что люди неправильно использовали критерий хи-квадрат с неправильными степенями свободы более двадцати лет с момента его введения в 1900 году)(R−1)∗(C−1)
Ваш случай относится ко второму типу (регрессия), а не к первому виду (таблица сопряженности), хотя оба связаны тем, что они являются линейными ограничениями параметров.
Поскольку вы моделируете ожидаемые значения на основе ваших наблюдаемых значений, и вы делаете это с моделью, имеющей два параметра, «обычное» уменьшение степеней свободы составляет два плюс один (дополнительный, потому что O_i нужно суммировать до итого, что является еще одним линейным ограничением, и в результате вы получите эффективное сокращение в два раза вместо трех из-за «неэффективности» смоделированных ожидаемых значений).
Тест хи-квадрат использует в качестве меры расстояния, чтобы выразить, насколько близок результат к ожидаемым данным. Во многих версиях тестов хи-квадрат распределение этого «расстояния» связано с суммой отклонений в нормально распределенных переменных (что верно только для предела и является приблизительным, если вы имеете дело с ненормальными распределенными данными) ,χ2
Для многомерного нормального распределения функция плотности связана с выражениемχ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
с определителем ковариационной матрицы|Σ|x
и является махаланобисом расстояние, которое уменьшается до евклидова расстояния, если .χ2=(x−μ)TΣ−1(x−μ)Σ=I
В своей статье 1900 года Пирсон утверждал, что -уровни являются сфероидами и что он может преобразовываться в сферические координаты, чтобы интегрировать такие значения, как . Который становится единым целым.χ2P(χ2>a)
Именно это геометрическое представление, как расстояние, а также член в функции плотности, может помочь понять уменьшение степеней свободы при наличии линейных ограничений.χ2
Сначала рассмотрим таблицу непредвиденных обстоятельств 2x2 . Вы должны заметить, что четыре значения не являются четырьмя независимыми нормально распределенными переменными. Вместо этого они связаны друг с другом и сводятся к одной переменной.Oi−EiEi
Давайте использовать таблицу
Oij=o11o21o12o22
тогда, если ожидаемые значения
Eij=e11e21e12e22
где фиксировано, то будет распределяться как распределение хи-квадрат с четырьмя степенями свободы, но часто мы оцениваем на основе и вариация не похожа на четыре независимых переменных. Вместо этого мы получаем, что все различия между и одинаковы∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
и они фактически являются одной переменной, а не четырьмя. Геометрически это можно увидеть как значение не интегрированное в четырехмерную сферу, а в одну линию.χ2
Обратите внимание, что этот тест таблицы сопряженности не подходит для таблицы сопряженности в тесте Хосмера-Лемешоу (он использует другую нулевую гипотезу!). См. Также раздел 2.1 «случай, когда и известны» в статье Hosmer и Lemshow. В их случае вы получаете 2g-1 степени свободы, а не g-1 степени свободы, как в правиле (R-1) (C-1). Это правило (R-1) (C-1) в особенности относится к нулевой гипотезе о том, что переменные строки и столбца являются независимыми (что создает ограничения R + C-1 для ). Тест Хосмера-Лемешоу относится к гипотезе о том, что ячейки заполнены в соответствии с вероятностями модели логистической регрессии, основанной наβ0β––oi−eifourпараметры в случае распределения предположения A и параметры в случае распределения предположения B.p+1
Второй случай регрессии. Регрессия делает нечто похожее на разницу как таблицу сопряженности и уменьшает размерность вариации. Для этого есть хорошее геометрическое представление, поскольку значение можно представить как сумму модельного члена и остаточных (не ошибочных) терминов . Эти модельные члены и остаточные члены представляют пространственное пространство, перпендикулярное друг другу. Это означает, что остаточные условия не могут принимать любое возможное значение! А именно, они уменьшаются на часть, которая проецируется на модель, и более конкретно на 1 измерение для каждого параметра в модели.o−eyiβxiϵiϵi
Возможно, следующие изображения могут немного помочь
Ниже 400 кратных трех (некоррелированных) переменных из биномиальных распределений . Они относятся к нормальным распределенным переменным . На этом же рисунке мы рисуем изоповерхность для . Интегрирование по этому пространству с использованием сферических координат, так что нам нужно только одно интегрирование (поскольку изменение угла не приводит к изменению плотности), в результате получается в котором эта часть представляет область d-мерной сферы. Если бы мы ограничивали переменныеB(n=60,p=1/6,2/6,3/6)N(μ=n∗p,σ2=n∗p∗(1−p))χ2=1,2,6χ∫a0e−12χ2χd−1dχχd−1χ в некотором смысле, интеграция была бы не над d-мерной сферой, а чем-то более низкого измерения.
Изображение ниже может быть использовано, чтобы получить представление об уменьшении размеров в остаточном выражении. Это объясняет метод подбора наименьших квадратов в геометрическом выражении.
В синем у вас есть измерения. В красном у вас есть то, что позволяет модель. Измерение часто не совсем соответствует модели и имеет некоторое отклонение. Вы можете рассматривать это геометрически как расстояние от измеренной точки до красной поверхности.
Красные стрелки и имеют значения и и могут быть связаны с некоторой линейной моделью как x = a + b * z + error илиmu1mu2(1,1,1)(0,1,2)
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
таким образом, диапазон этих двух векторов и (красная плоскость) - это значения для , которые возможны в регрессионной модели, а - это вектор, который представляет собой разницу между наблюдаемое значение и регрессия / смоделированное значение. В методе наименьших квадратов этот вектор перпендикулярен (наименьшее расстояние - наименьшая сумма квадратов) к красной поверхности (а смоделированное значение является проекцией наблюдаемого значения на красную поверхность).( 0 , 1 , 2 ) x ϵ(1,1,1)(0,1,2)xϵ
Таким образом, эта разница между наблюдаемым и (смоделированным) ожидаемым является суммой векторов, которые перпендикулярны вектору модели (и это пространство имеет размерность общего пространства минус число векторов модели).
В нашем простом примере. Общее измерение составляет 3. У модели есть 2 измерения. И ошибка имеет размерность 1 (поэтому независимо от того, какую из этих голубых точек вы берете, зеленые стрелки показывают один пример, термины ошибки всегда имеют одинаковое отношение, следуют за одним вектором).
Я надеюсь, что это объяснение помогает. Это ни в коем случае не является строгим доказательством, и есть некоторые специальные алгебраические приемы, которые необходимо решить в этих геометрических представлениях. Но в любом случае мне нравятся эти два геометрических представления. Один для хитрости Пирсона, чтобы интегрировать , используя сферические координаты, а другой для просмотра метода суммы наименьших квадратов в виде проекции на плоскость (или больший промежуток).χ2
Я всегда удивляюсь, как мы получаем , на мой взгляд, это не тривиально, поскольку нормальное приближение бинома не является делением на а на и в В случае таблиц сопряженности вы можете легко их обработать, но в случае регрессии или других линейных ограничений это не так просто, в то время как в литературе часто очень легко утверждать, что «то же самое работает для других линейных ограничений» , (Интересный пример проблемы. Если вы выполнили следующий тест несколько раз «бросьте 2 раза 10 раз монету и зарегистрировали только те случаи, в которых сумма равна 10», вы не получите типичное распределение хи-квадрат для этого » простое «линейное ограничение» enp(1-p)o−eeenp(1−p)