XGBoost может обрабатывать недостающие данные на этапе прогнозирования


12

Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или необходимо вменять недостающие данные.

Заранее спасибо.

Ответы:


14

Во время обучения xgboost решает, попадать ли пропущенные значения в правый или левый узел. Он выбирает, какой минимизировать потери. Если во время обучения отсутствуют пропущенные значения, по умолчанию отправляются любые новые пропуски в нужный узел.

Если в распределении ваших пропусков есть сигнал, то это в основном соответствует модели.

Будьте осторожны, если ваши оценочные данные имеют пропущенные значения, отличающиеся от ваших тренировочных данных. Отсутствующая обработка в xgboost удобна, но не защищает от маскировки.

Источник: этот ответ

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.