Вопрос
Я изо всех сил пытаюсь понять, как прогнозирование сохраняется в интервале при выполнении бинарной классификации с градиентным повышением.
Предположим , что мы работаем над бинарной проблемы классификации, и наша целевая функция является потеря журнала, где - целевая переменная а - наша текущая модель.
При обучении следующего слабого ученика , чтобы наша новая модель была , каков механизм, который должен поддерживать ? Или, может быть, более актуальный вопрос, есть ли такой механизм?
Больше информации о том, что я делаю
Я пытаюсь реализовать повышение градиента, используя деревья регрессии. Чтобы этого избежать, нужно умножить на коэффициент , чтобы не опускался ниже нуля или выше единицы, и я выбираю в этом диапазоне, который минимизирует функция потерь.
Это приводит к следующей проблеме: после нескольких раундов у меня есть одна точка, которая отлично классифицируется, и наилучшее из доступных разделений, чтобы толкать классификатор в направлении градиента, хочет переместить эту точку выше единицы, что, я уверен, не произойдет установка . Таким образом, вся следующая итерация выберет тот же сплит и тот же самый c = 0 .
Я попробовал общие практики регуляризации
- Уменьшение скорости обучения путем умножения на μ = 0,01 . Это только задерживает проблему.
- Субдискретизация пространства объектов, но некоторые из точек очень легко классифицировать, они отмечают почти все флажки «это положительный результат?» форма, и почти каждый «хороший раскол» показывает это поведение.
Я думаю, что это не проблема параметров, и должен быть более надежный способ исправить это. Я не отказываюсь от возможности того, что моя реализация сломана, но я не нашел ничего, что решало бы эту проблему.
То, чем мы манипулируем в контексте логистической потери, должно быть вероятностью, так как же нам ее избежать?
Моя интуиция состояла бы в том, чтобы поместить модель, которую мы строим, , в сигмовидную функцию так, чтобы она была ограничена [ 0 , 1 ] , и я думаю, что это сработало бы, но я хочу знать, есть ли другие решения. Поскольку усиление градиента, по-видимому, успешно используется в задачах классификации, должно существовать «правильное» (т.е. с обоснованием) решение.