Я хочу предсказать проблему со здоровьем. У меня есть 3 категории результатов: «нормальный», «мягкий» и «тяжелый». Я хочу предсказать это из двух переменных предиктора, результата теста (непрерывный, интервальный ковариат) и семейной истории с этой проблемой (да или нет). В моей выборке вероятности составляют 55% (нормально), 35% (слабо) и 10% (тяжело). В этом смысле я всегда мог просто предсказать «нормальный» и быть правым в 55% случаев, хотя это не дало бы мне никакой информации об отдельных пациентах. Мне подходит следующая модель:
Предположим, что нет взаимодействия, и все в порядке с моделью. Соответствие, c, составляет 60,5%, что, как я понимаю, является максимальной точностью прогнозирования, которую обеспечивает модель.
Я сталкиваюсь с двумя новыми пациентами со следующими данными: 1. тест = 3,26, семья = 0; 2. тест = 2.85, семья = 1. Я хочу предсказать их прогноз. Используя формулу: (а затем, принимая во внимание различия между совокупными вероятностями), я могу рассчитать распределение вероятностей по категориям ответов, зависящих от модели. Код R (примечание: из-за проблем с округлением выходные данные не совпадают идеально):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
А именно: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; и 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Мой вопрос: как мне перейти от распределения вероятностей к категории предсказанных ответов?
Я попробовал несколько возможностей, используя выборочные данные, где результат известен. Если я просто выберу макс (вероятности), точность будет 57%, небольшое улучшение по сравнению с нулем, но ниже согласованности. Более того, в примере этот подход никогда не выбирает «серьезный», что я действительно хочу знать. Я попробовал байесовский подход, преобразовав нулевые и модельные вероятности в шансы, а затем выбрав максимум (отношение шансов). Это иногда выбирает «серьезные», но дает худшую точность 49,5%. Я также попробовал сумму категорий, взвешенных по вероятностям и округлениям. Это, опять же, никогда не выбирает «серьезный», и имеет низкую точность 51,5%.
Какое уравнение берет приведенную выше информацию и дает оптимальную точность (60,5%)?