Как вы предсказываете категорию ответа на основе порядковой модели логистической регрессии?

Я хочу предсказать проблему со здоровьем. У меня есть 3 категории результатов: «нормальный», «мягкий» и «тяжелый». Я хочу предсказать это из двух переменных предиктора, результата теста (непрерывный, интервальный ковариат) и семейной истории с этой проблемой (да или нет). В моей выборке вероятности составляют 55% (нормально), 35% (слабо) и 10% (тяжело). В этом смысле я всегда мог просто предсказать «нормальный» и быть правым в 55% случаев, хотя это не дало бы мне никакой информации об отдельных пациентах. Мне подходит следующая модель:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

Предположим, что нет взаимодействия, и все в порядке с моделью. Соответствие, c, составляет 60,5%, что, как я понимаю, является максимальной точностью прогнозирования, которую обеспечивает модель.

Я сталкиваюсь с двумя новыми пациентами со следующими данными: 1. тест = 3,26, семья = 0; 2. тест = 2.85, семья = 1. Я хочу предсказать их прогноз. Используя формулу: (а затем, принимая во внимание различия между совокупными вероятностями), я могу рассчитать распределение вероятностей по категориям ответов, зависящих от модели. Код R (примечание: из-за проблем с округлением выходные данные не совпадают идеально):

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

А именно: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; и 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Мой вопрос: как мне перейти от распределения вероятностей к категории предсказанных ответов?

Я попробовал несколько возможностей, используя выборочные данные, где результат известен. Если я просто выберу макс (вероятности), точность будет 57%, небольшое улучшение по сравнению с нулем, но ниже согласованности. Более того, в примере этот подход никогда не выбирает «серьезный», что я действительно хочу знать. Я попробовал байесовский подход, преобразовав нулевые и модельные вероятности в шансы, а затем выбрав максимум (отношение шансов). Это иногда выбирает «серьезные», но дает худшую точность 49,5%. Я также попробовал сумму категорий, взвешенных по вероятностям и округлениям. Это, опять же, никогда не выбирает «серьезный», и имеет низкую точность 51,5%.

Какое уравнение берет приведенную выше информацию и дает оптимальную точность (60,5%)?

logistic ordered-logit

— Gung - Восстановить Монику
источник

Ответы:

$Y$ rmslrmpredict.lrm

— Фрэнк Харрелл
источник

Спасибо за вашу помощь. Я подозревал, что низкая частота серьезных является частью проблемы. Я думаю, что мой грубый Y, 0 1 2, недостаточно равный интервал. Я понимаю, что моя цель ошибается. К сожалению, я думаю, что хочу знать, к какой категории относится новый пациент / не совсем понимаю, какой должна быть моя цель . Можно ли обеспечить немного больше понимания? (На самом деле, я подозреваю, что CV не является форумом для полного урока; в качестве альтернативы, вы знаете, где я мог бы узнать об этой проблеме? Я прочитал разделы из «Логистики Agresti Intro & Hosmer & Lemeshow», но безрезультатно.)

— gung - Восстановить Монику

Цель определяется желаемым решением или предметом. Если вы сформулируете конечную цель, я мог бы прокомментировать.

— Фрэнк Харрелл

Извините за отсутствие ясности, похоже, проблема была выше. В настоящее время я хочу быть в состоянии предсказать результат для новых случаев. В долгосрочной перспективе я хочу лучше понять ord log reg, например, как вы получаете остатки, если у вас нет предсказанных категорий? Я понимаю, что немного лучшая точность возможна, но я не знаю, как ее получить. Я уверен, что у вас нет времени, чтобы объяснить все, но ни Agresti, ни H & L не говорят ничего о прогнозах или остатках, и т. Д., И я не смог ничего найти с помощью Google. Таким образом, я спросил на резюме. Я ценю вашу постоянную помощь.

— gung - Восстановить Монику

Y \geq j

$Y\geq j$

j

$j$

-1

Соответствие определяется путем проверки среднего балла, а не максимального балла.

Таким образом, для ваших примеров среднее значение для 1 составляет 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, а 2 - (с помощью аналогичных расчетов) 0,826.

Именно это значение вы должны сравнить, чтобы получить соответствие или любую другую статистику ассоциации.

Ссылка - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

— Kalel
источник

Нет, соответствие рассчитывается с использованием необработанной переменной результата

Y

$Y$ и линейный предиктор

X β

$X\beta$ или любую из прогнозируемых вероятностей (поскольку все они монотонно связаны друг с другом, т. е. просто сдвинуты при перехвате перед вычислением экспита). Somers'

D_{x y}

$D_{xy}$ ранговый коэффициент корреляции использует эту меру согласования.

— Фрэнк Харрелл

PS Обратите внимание, что документация SAS, которая представляет собой переписывание моей исходной документации для предшественника, который SAS PROC LOGISTя написал много лет назад, теперь неверна, и ее формула для среднего значения неверна, если только

Y

$Y$ состоит из последовательных целых чисел.

— Фрэнк Харрелл