Я бы посоветовал вам взглянуть на книги по анализу категориальных данных (см. Alan Agresti, Категориальный анализ данных, 2002), чтобы лучше объяснить и понять упорядоченную логистическую регрессию . На все вопросы, которые вы задаете, в основном отвечают несколько глав в таких книгах. Если вы заинтересованы только в R
родственных примерах Расширение линейных моделей в R по юлианскому Faraway (CRC Press, 2008) является отличным справочником.
Прежде чем я отвечу на ваши вопросы, упорядоченная логистическая регрессия - это случай полиномиальных логит-моделей, в которых упорядочены категории. Предположим, что у нас есть упорядоченные категории и для индивидуального i с порядковым ответом Y i ,
p i j = P (JiYi для J = 1 , . , , , J . С упорядоченным ответом часто легче работать с кумулятивными вероятностями, γ i j = Ppij=P(Yi=j)j=1,...,J . Кумулятивные вероятности растут и инвариантны к объединению смежных категорий. Кроме того, γ i J = 1 , поэтому нам нужны тольковероятностимодели J - 1 .γij=P(Yi≤j)γiJ=1J–1
Теперь мы хотим связать s с ковариатами x . В вашем случае, имеет 3 упорядоченные уровни: , , . Более разумно обращаться с ними как с заказанными, а не неупорядоченными. Остальные переменные - ваши ковариаты. Конкретная модель, которую вы рассматриваете, является моделью пропорциональных шансов и математически эквивалентна:γijxSat
low
medium
high
где
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
Это так называется, потому что относительные шансы для сравнении x 1 и x 2 :Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Обратите внимание, что приведенное выше выражение не зависит от . Конечно, предположение о пропорциональных шансах действительно необходимо проверить для данного набора данных.j
Теперь я отвечу на некоторые (1, 2, 4) вопросы.
Как понять, хорошо ли подошла модель? Summary (house.plr) показывает остаточное отклонение 3479,149 и AIC (информационный критерий Акаике?) 3495,149. Это хорошо? В том случае, если они полезны только в качестве относительных показателей (то есть для сравнения с другой моделью), что является хорошим абсолютным показателем? Распределение остаточного отклонения приблизительно по критерию хи-квадрат? Можно ли использовать «% правильно предсказанный» на исходных данных или какую-либо перекрестную проверку? Какой самый простой способ сделать это?
Подходящая модель polr
является особенной glm
, поэтому все допущения, которые имеют место для традиционного glm
удержания здесь. Если вы позаботитесь о параметрах правильно, вы можете выяснить распределение. В частности, чтобы проверить, является ли модель хорошей или нет, вы можете захотеть выполнить тест на пригодность , который проверяет следующее значение null (обратите внимание, что это неуловимо, в основном вы хотите отклонить значение null, но здесь вы не хотите отклоните это, чтобы получить хорошую подгонку):
Ho: current model is good enough
Вы бы использовали для этого критерий хи-квадрат . Значение р получается как:
1-pchisq(deviance(house.plr),df.residual(house.plr))
В большинстве случаев вы надеетесь получить значение p больше 0,05, чтобы не отклонять ноль, чтобы сделать вывод о том, что модель подходит (философская корректность здесь игнорируется).
AIC должен быть высоким для хорошей подгонки, в то время как вы не хотите иметь большое количество параметров. stepAIC
хороший способ проверить это.
Да, вы определенно можете использовать перекрестную проверку, чтобы убедиться в правильности прогнозов. Смотрите predict
функцию (опция:) type = "probs"
в ?polr
. Все, что вам нужно, это ковариаты.
Какую информацию содержит PR? Страница справки в профиле является общей и не дает указаний для опроса
Как указано @chl и др., pr
Содержит всю информацию, необходимую для получения КИ и другую информацию, связанную с вероятностью polr fit
. Все glm
s подгоняются с использованием итеративно взвешенного метода наименьших квадратов для логарифмической вероятности. В этой оптимизации вы получаете много информации (см. Ссылки), которая понадобится для расчета матрицы дисперсии ковариации, CI, t-значения и т. Д. Она включает в себя все это.
Как интерпретировать значения t для каждого коэффициента? В отличие от некоторых моделей> подходит, здесь нет значений P.
В отличие от нормальной линейной (специальной glm
) модели, другие glm
s не имеют хорошего t-распределения для коэффициентов регрессии. Поэтому все, что вы можете получить, - это оценки параметров и их ковариационную матрицу асимптотической дисперсии с использованием теории максимального правдоподобия. Следовательно:
Variance(β^)=(XTWX)−1ϕ^
Оценка, разделенная на стандартную ошибку, - это то, что BDR и WV называют t-значением (здесь я предполагаю MASS
соглашение). Это эквивалентно t-значению из нормальной линейной регрессии, но не следует t-распределению. Используя CLT, он асимптотически нормально распределен. Но они предпочитают не использовать этот прибл (я думаю), следовательно, нет р-значений. (Я надеюсь, что я не ошибаюсь, и если я ошибаюсь, я надеюсь, что BDR нет на этом форуме. Я также надеюсь, что кто-то исправит меня, если я ошибаюсь.)
methods("profile")
даст вам (в данном случае S3) методы, связанные сprofile
объектом R , тогда вы увидите, что есть специальный метод дляpolr
результатов, который вы можете просмотреть в режиме онлайн, набравgetAnywhere("profile.polr")
в приглашении R.