Недавно я заинтересовался укладкой моделей как формой обучения ансамблям. В частности, я немного поэкспериментировал с некоторыми игрушечными наборами данных для проблем регрессии. Я в основном реализовал отдельные регрессоры «уровня 0», сохранил выходные прогнозы каждого регрессора в качестве новой функции для «мета-регрессора», чтобы принять в качестве входных данных, и приспособил этот мета-регрессор к этим новым функциям (предсказания от уровня 0 регрессоров). Я был крайне удивлен, увидев даже скромные улучшения по сравнению с отдельными регрессорами при тестировании мета-регрессора с набором валидации.
Итак, вот мой вопрос: почему эффективна укладка модели? Интуитивно, я бы ожидал, что модель, выполняющая стекирование, будет работать плохо, так как, похоже, она имеет скудное представление функций по сравнению с каждой из моделей уровня 0. То есть, если я тренирую 3 регрессора уровня 0 в наборе данных с 20 функциями и использую прогнозы этих регрессоров уровня 0 в качестве входных данных для моего мета-регрессора, это означает, что у моего мета-регрессора есть только 3 возможности для изучения. Похоже, что в 20 исходных функциях, которые регрессоры уровня 0 имеют для обучения, имеется больше информации, чем 3 выходные функции, которые метарегрессор использует для обучения.