Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической регрессии?
Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической регрессии?
Ответы:
Да, вы можете превзойти модели логистической регрессии. Но сначала я бы хотел затронуть вопрос об AUC (область под кривой рабочих характеристик приемника): универсальных эмпирических правил для AUC не существует никогда, никогда.
То, что AUC - это вероятность того, что случайно выбранная положительная (или случай) будет иметь более высокое значение маркера, чем отрицательная (или контрольная), потому что AUC математически эквивалентна статистике U.
То, что AUC не является стандартизированной мерой точности прогнозирования. События с высокой степенью детерминированности могут иметь единичные предикторы AUC 95% или выше (например, в управляемой мехатронике, робототехнике или оптике), в некоторых сложных многопараметрических моделях прогнозирования логистического риска AUC равны 64% или ниже, например прогнозирование риска рака молочной железы. Достаточно высокий уровень точности прогнозирования.
Разумное значение AUC, как и в случае анализа мощности, предопределяется путем сбора знаний об основах и целях исследования ariori . Врач / инженер описывает, чего они хотят, и вы, статистик, выбираете целевое значение AUC для вашей прогностической модели. Затем начинается расследование.
Действительно возможно переоснастить модель логистической регрессии. Помимо линейной зависимости (если матрица модели имеет недостающий ранг), вы также можете иметь идеальное соответствие, или это график подгоночных значений по отношению к Y, что отлично различает случаи и элементы управления. В этом случае ваши параметры не сходятся, а просто находятся где-то на граничном пространстве, что дает вероятность . Иногда, однако, AUC равен 1 случайно.
Существует еще один тип смещения, возникающий из-за добавления в модель слишком большого количества предикторов, и это небольшой выборочный уклон. В целом, логарифмические отношения шансов модели логистической регрессии имеют тенденцию к смещенному фактору из-за неослабности отношения шансов и нулевого числа клеток. Вывод, это обрабатывается с использованием условной логистической регрессии для контроля смешанных и точных переменных в стратифицированных анализах. Тем не менее, в прогнозе, вы SOOL. Обобщаемого прогноза не существует, если у вас есть p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )) потому что вы гарантированно смоделировали «данные», а не «тренд» в этой точке. Высокоразмерный (большой ) прогноз двоичных результатов лучше выполнять с помощью методов машинного обучения. Понимание линейного дискриминантного анализа, частичных наименьших квадратов, прогнозирования ближайших соседей, форсирования и случайных лесов будет очень хорошим началом.
Говоря простыми словами ... перегруженная модель логистической регрессии имеет большую дисперсию, что означает изменение границ решения в основном при небольшом изменении переменной величины. Рассмотрим следующее изображение, наиболее правым является переоснащенная логистическая модель, границы решения которой не имеют большого значения. из взлетов и падений, в то время как средний из них просто подходит, он имеет умеренную дисперсию и умеренный уклон. левый нижний - у него высокий уклон, но очень меньший разброс. Еще одна вещь. У переоснащенной модели регрерации слишком много функций, в то время как у модели с минимальными затратами очень мало. функций.
Вы можете использовать любой метод, даже если вы подходите всему населению (если оно ограничено). Существует два основных решения этой проблемы: (1) оценка максимального правдоподобия (штраф за регрессию гребня, упругая сеть, лассо и т. Д.) И (2) использование информативных априорных значений в байесовской модели.
Есть ли какая-то модель, оставив в стороне логистическую регрессию, которую невозможно переоснастить?
Переоснащение возникает в основном потому, что вы подходите для выборки, а не для всего населения. Артефакты из вашей выборки могут показаться особенностями населения, и они не являются, и, следовательно, переоснащение причиняет боль.
Это сродни вопросу внешней действительности. Используя только образец, вы пытаетесь получить модель, которая дает вам наилучшую производительность в реальной популяции, которую вы не видите.
Несомненно, некоторые модельные формы или процедуры имеют больше шансов переодеться, чем другие, но ни одна модель никогда не будет действительно защищена от переоснащения, не так ли?
Даже проверка вне образца, процедуры регуляризации и т. Д. Могут только защитить от переоснащения, но серебряной пули нет. На самом деле, если оценивать уверенность в том, что можно сделать прогноз в реальном мире на основе подобранной модели, нужно всегда предполагать, что некоторая степень переоснащения действительно имела место.
В какой степени это может отличаться, но даже модель, проверенная на наборе данных с задержкой, редко дает результаты в режиме реального времени, которые совпадают с данными, полученными на наборе данных с удержанием. И переоснащение является большим причинным фактором.
То, что мы делаем с Roc для проверки переоснащения, - это случайное разделение набора данных при обучении и валидации и сравнение AUC между этими группами. Если AUC «намного» (также нет большого правила) больше в тренировках, то может быть переобучение.