Итак, я работаю с моделями логистической регрессии в R. Хотя я все еще новичок в статистике, я чувствую, что уже получил некоторое понимание моделей регрессии, но есть еще кое-что, что меня беспокоит:
Глядя на связанный рисунок, вы видите итоговую R-печать для примера модели, которую я создал. Модель пытается предсказать, если письмо в наборе данных будет восстанавливать или нет (бинарная переменная isRefound
) и набор данных содержит две переменные тесно связаны с isRefound
, а именно next24
и next7days
- они также являются бинарными и сказать , если почта будет нажата в следующем 24 часа / следующие 7 дней с текущей точки в журналах.
Высокое значение p должно указывать, что влияние этой переменной на прогноз модели довольно случайно, не так ли? Исходя из этого, я не понимаю, почему точность предсказаний моделей падает ниже 10%, когда эти две переменные не учитываются в формуле расчета. Если эти переменные имеют столь низкое значение, почему удаление их из модели оказывает такое большое влияние?
С наилучшими пожеланиями и заранее спасибо, Rickyfox
РЕДАКТИРОВАТЬ:
Сначала я удалил только next24, что должно дать низкий эффект, потому что это довольно мало. Как и ожидалось, мало что изменилось - не собираюсь загружать фото для этого.
Удаление в следующие 7 дней оказало большое влияние на модель: AIC увеличился на 200 тыс., Точность снизилась до 16%, а отзыв до 73%.
isRefound ~ day + next24
и пропущены все остальные переменные?