Основным преимуществом ступенчатой регрессии является ее вычислительная эффективность. Тем не менее, его производительность, как правило, хуже, чем альтернативные методы. Проблема в том, что он слишком жадный. Делая жесткий выбор следующего регрессора и «замораживая» вес, он делает выбор, который является локально оптимальным на каждом этапе, но в целом неоптимальным. И он не может вернуться, чтобы пересмотреть свой прошлый выбор.
Насколько я знаю, ступенчатая регрессия, как правило, не пользуется популярностью по сравнению с l1 регуляризованной регрессией (LASSO), которая, как правило, дает лучшие решения.
Тибширани (1996) . Регрессионная усадка и отбор с помощью лассо
ЛАССО наказывают норму веса, который вызывает разреженность в растворе (много веса в ноль). Выполняется выбор переменных (допустимые переменные могут иметь ненулевые веса). Степень редкости контролируется термином пенальности, и для его выбора должна использоваться некоторая процедура (перекрестная проверка является распространенным выбором). LASSO требует больших вычислительных ресурсов, чем ступенчатая регрессия, но существует ряд эффективных алгоритмов. Некоторыми примерами являются регрессия с наименьшим углом ( LARS ) и подход, основанный на координатном спуске .l1
Подобный подход к тому, что вы предложили в (2), называется поиском ортогонального соответствия. Это обобщение поиска соответствия, которое является названием ступенчатой регрессии в литературе по обработке сигналов.
Пати и соавт. (1993) . Погоня за ортогональным соответствием: приближение рекурсивной функции с приложениями к вейвлет-разложению
На каждой итерации следующий лучший регрессор добавляется в активный набор. Затем весовые коэффициенты для всех регрессоров в активном наборе пересчитываются. Из-за шага повторного взвешивания этот подход является менее жадным (и имеет лучшую производительность), чем регулярное преследование / ступенчатая регрессия. Но он все еще использует жадный эвристический поиск.
Все эти подходы (ступенчатая регрессия, LASSO и преследование по ортогональному соответствию) могут рассматриваться как приближения к следующей проблеме:
minw∥y−Xw∥22s.t. ∥w∥0≤c
В контексте регрессии столбцы соответствуют независимым переменным, а - зависимой переменной. При обработке сигналов столбцы соответствуют базисным функциям, а - приближенный сигнал. Цель состоит в том, чтобы найти разреженный набор весов который дает наилучшую (наименьших квадратов) аппроксимацию . норма просто подсчитывает количество ненулевых элементов в . К сожалению, эта проблема является NP-сложной, поэтому на практике должны использоваться алгоритмы аппроксимации. Ступенчатая регрессия и стремление к ортогональному сопоставлению пытаются решить проблему с помощью жадной стратегии поиска. ЛАССО переформулирует проблему, используя расслаблениеXyXywyl0wl0норма норме . Здесь задача оптимизации становится выпуклой (и, следовательно, решаемой). И, хотя проблема больше не идентична, решение аналогично. Если я правильно помню, было доказано, что и LASSO, и стремление к ортогональному согласованию восстанавливают точное решение при определенных условиях.l1