Почему логистическая регрессия хорошо откалибрована и как ее испортить?


9

В scikit изучают документы по калибровке вероятности, они сравнивают логистическую регрессию с другими методами и отмечают, что случайный лес менее хорошо откалиброван, чем логистическая регрессия.

Почему логистическая регрессия хорошо откалибрована? Как можно испортить калибровку логистической регрессии (а не то, что кто-то хотел бы - просто как упражнение)?

Ответы:


4

Хотя этот вопрос и его первый ответ, кажется, сосредоточены на теоретических вопросах калибровки модели логистической регрессии, проблема:

Как можно испортить калибровку логистической регрессии ...?

заслуживает некоторого внимания в отношении реальных приложений, для будущих читателей этой страницы. Мы не должны забывать, что модель логистической регрессии должна быть четко определена, и что эта проблема может быть особенно проблематичной для логистической регрессии.

Во-первых, если логарифм членства в классе не связан линейно с предикторами, включенными в модель, он не будет хорошо откалиброван. Глава 10 Харрелла о бинарной логистической регрессии посвящает около 20 страниц «Оценке соответствия модели», чтобы можно было воспользоваться «асимптотической непредвзятостью оценки максимального правдоподобия», как это выразилось @whuber, на практике.

Во-вторых, спецификация модели представляет собой особую проблему в логистической регрессии, поскольку она имеет присущую опущенную переменную погрешность, которая может удивлять тех, кто имеет опыт обычной линейной регрессии. Как написано на этой странице:

Пропущенные переменные будут смещать коэффициенты включенных переменных, даже если пропущенные переменные не связаны с включенными переменными.

На этой странице также есть полезное объяснение того, почему такое поведение следует ожидать, с теоретическим объяснением связанных, аналитически управляемых, пробитных моделей. Поэтому, если вы не знаете, что вы включили все предикторы, связанные с членством в классе, вы можете столкнуться с опасностями неправильной спецификации и плохой калибровки на практике.

Что касается спецификации модели, вполне возможно, что основанные на деревьях методы, такие как случайный лес, которые не предполагают линейности по всему диапазону значений предикторов и по своей природе обеспечивают возможность находить и включать взаимодействия между предикторами, в конечном итоге получат калиброванная модель на практике, чем модель логистической регрессии, которая недостаточно учитывает условия взаимодействия или нелинейность. Что касается смещения пропущенных переменных, мне не ясно, может ли какой-либо метод оценки вероятностей членства в классе адекватно решить эту проблему.


5

Логистическая регрессия - это метод классификации, который в основном изучает функцию вероятности по входному пространству путем подгонки параметров . Если прогнозируемые вероятности изучаются с помощью соответствующей функции потерь, то логистическая регрессия имеет потенциал для изучения объективной оценки вероятностей бинарных событий, когда она имеет достаточную емкость (входные характеристики).πθ(x)θ

Потеря журнала позволяет такую ​​объективную оценку. Рассмотрим тот факт, что функция потери логарифма является просто отрицательной логарифмической вероятностью распределения Бернулли . Оценка максимального правдоподобия для является несмещенной с учетом набора наблюдений для переменной . В случае классификации по некоторому входному пространству можно представить себе одно распределение Бернулли для всех точек в . Чаще всего у вас будет только 1 наблюдение на распределение Бернулли, которое находится в . Совместное применение оценки максимального правдоподобия для всех наблюдаемых распределений БернуллиzBer(p)pzXXyixiyiBer(π(xi))будет применять несколько ограничений к . Поскольку все эти ограничения приводят к непредвзятым оценкам, и пока функция достаточно гибкая, чтобы соответствовать истинной базовой вероятностной функции , процедура обучения будет последовательной и будет сходиться к оптимальной модели по мере получения больше данных. Таким образом, ограничение емкости модели (например, меньшее количество функций) может затруднить калибровку логистической регрессии, увеличивая расстояние между наилучшей обучаемой моделью и истинной моделью.πθπθπ

Использование неправильной модели наблюдения с логистической регрессией приведет к некалиброванным вероятностям. Моделирование бинарных событий с нормальным распределением неуместно и не должно использоваться в сочетании с логистической регрессией. Функция потерь, соответствующая модели наблюдения нормального распределения, представляет собой среднеквадратичную ошибку. Таким образом, использование потерь MSE определенно помешало бы его калибровке.


2
Осторожно называя логистическую регрессию методом классификации на этом сайте! Спасибо за ответ - кажется, вы намекаете на то, что цель калибровки журнала является причиной калибровки (при условии, что модель достаточно гибкая)?
user0

1
Последующее наблюдение - вы говорите, что калибровка требует объективной оценки вероятности - следовательно, калибровка руин штрафования?
user0

«LogisticRegression возвращает хорошо откалиброванные прогнозы по умолчанию, поскольку оно напрямую оптимизирует потерю журнала» - scikit-learn.org/stable/modules/calibration.html
cortax

По определению, штраф или регуляризация, это инъекция смещения, которая часто стремится уменьшить дисперсию оценки. Массовая регуляризация может доминировать в части данных целевой функции и, безусловно, разрушить калибровку.
Кортакс

2
Цитата scikit-learn об «оптимизации потери журнала» не является эффективным объяснением, потому что между этим и непредвзятостью нет необходимой связи. Если я не ошибаюсь, правильный ответ на этот вопрос нужен будет для вызова асимптотических несмещенностей от максимального правдоподобия оценки , как правило , используется в логистических процедурах регрессии.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.