Не путайте обработку предикторов (с помощью базовых учеников, например, пней) и обработку функции потерь в бустинге. Хотя AdaBoost можно рассматривать как поиск комбинаций базовых учащихся для минимизации ошибки ошибочной классификации, цитируемый вами документ «Аддитивная логистическая регрессия» показывает, что он также может быть сформулирован для минимизации функции экспоненциальных потерь. Это понимание открыло подход повышения к широкому классу проблем машинного обучения, которые минимизируют дифференцируемые функции потерь посредством повышения градиента . Остатки, которые подходят на каждом шаге, являются псевдо-остатками, рассчитанными из градиента функции потерь. Даже если предикторы моделируются как двоичные пни, выходные данные модели, таким образом, не должны быть двоичным выбором.
Как гласит другой ответ, линейные базовые ученики могут не работать для повышения, но линейные базовые ученики не требуются для «усиленной регрессии» ни в стандартном, ни в логистическом смысле. Решительно нелинейные пни могут быть объединены в качестве учеников с медленной базой, чтобы минимизировать соответствующие функции потерь. Она по-прежнему называется «усиленная регрессия», хотя она далека от стандартной модели регрессии, линейной по коэффициентам предикторов. Функция потерь может быть функционально одинаковой для линейных моделей и моделей «усиленной регрессии» с пнями или деревьями в качестве предикторов. Глава 8 ISLR проясняет это.
Поэтому, если вы хотите логистическую регрессию, эквивалентную усиленной регрессии, сфокусируйтесь на функции потерь, а не на базовых учениках. Вот что делает подход LogitBoost в статье, которую вы цитируете: минимизировать потерю журнала, а не экспоненциальную потерю, неявную в adaboost. Страница AdaBoost Википедии описывает эту разницу.
Многие участники этого сайта утверждают, что прогнозирование на основе логарифмических шансов / вероятностей является наиболее предпочтительным по сравнению со строгим прогнозом классификации да / нет, так как первый в более общем случае допускает различные компромиссы между дополнительными затратами ложноположительных и ложноотрицательных прогнозов. , Как показывает ответ на ваш связанный вопрос , можно получить оценочные вероятности из строгого классификатора, полученного из AdaBoost, но LogitBoost вполне может дать лучшую производительность.
Реализации повышения градиента для классификации могут предоставить информацию об основных вероятностях. Например, эта страница о повышении градиента показывает, как sklearn
код позволяет выбирать между потерей отклонения для логистической регрессии и экспоненциальной потерей для AdaBoost, а также документирует функции для прогнозирования вероятностей из модели с повышением градиента.