Превосходство LASSO над прямым выбором / обратным устранением с точки зрения ошибки прогнозирования перекрестной проверки модели

10

Я получил три уменьшенные модели из оригинальной полной модели, используя

выбор вперед
устранение в обратном направлении
Техника наказания L1 (LASSO)

Для моделей, полученных с использованием прямого выбора / обратного исключения, я получил перекрестную валидацию оценки ошибки прогнозирования, используя CVlmпакет, DAAGдоступный в R. Для модели, выбранной через LASSO, я использовал cv.glm.

Ошибка прогноза для LASSO была меньше, чем для других. Таким образом, модель, полученная с помощью LASSO, кажется лучше с точки зрения ее прогнозирующей способности и изменчивости. Это общее явление, которое всегда происходит, или это проблема? Каково теоретическое обоснование этого, если это общее явление?

— user41512
источник

3

Убедитесь, что вы не используете неправильное правило оценки точности, такое как правильная пропорция, поскольку это вознаграждает неправильный прогноз / модели. И сравните с нормой L2. Бьюсь об заклад, это будет лучше, чем 3 подхода, которые вы пробовали.

— Фрэнк Харрелл,

16

Выбор моделей LASSO и вперед / назад имеет свои сильные и слабые стороны. Никаких далеко идущих рекомендаций сделать нельзя. Моделирование всегда можно изучить, чтобы решить эту проблему.

И то, и другое можно понять в смысле размерности: имеется в виду - количество параметров модели и - количество наблюдений. Если вы смогли подобрать модели с помощью обратного выбора модели, у вас, вероятно, не было . В этом случае «наиболее подходящая» модель - это модель, использующая все параметры ... при внутренней проверке! Это просто вопрос переоснащения. $p$ $n$ $p \gg n$

Переоснащение устраняется с помощью перекрестной проверки с разделением выборки (CV) для оценки модели. Поскольку вы не описали это, я полагаю, вы этого не делали. В отличие от пошагового выбора модели, LASSO использует параметр настройки, чтобы штрафовать количество параметров в модели. Вы можете исправить параметр настройки или использовать сложный итерационный процесс, чтобы выбрать это значение. По умолчанию LASSO делает последнее. Это делается с помощью CV, чтобы минимизировать MSE прогнозирования. Мне неизвестно о какой-либо реализации поэтапного выбора модели, в которой используются такие сложные методы, даже BIC в качестве критерия будет страдать от внутреннего смещения проверки. По моему мнению, это автоматически дает LASSO рычаги для поэтапного выбора модели «из коробки».

Наконец, поэтапный выбор модели может иметь разные критерии для включения / исключения разных регрессоров. Если вы используете p-значения для конкретного теста параметров Вальда или полученной модели R ^ 2, у вас ничего не получится, в основном из-за внутреннего смещения проверки (опять же, это можно исправить с помощью CV). Я нахожу удивительным, что такие модели все еще используются. AIC или BIC - намного лучшие критерии для выбора модели.

Есть ряд проблем с каждым методом. Проблемы поэтапного выбора модели гораздо лучше поняты и гораздо хуже, чем у LASSO. Основная проблема, которую я вижу в вашем вопросе, заключается в том, что вы используете инструменты выбора функций для оценки прогноза . Это разные задачи. LASSO лучше для выбора функции или разреженного выбора модели. Регрессия гребня может дать лучший прогноз, поскольку она использует все переменные.

Большая сила LASSO заключается в том, что он может оценивать модели, в которых , как это может быть в случае прямой (но не обратной) ступенчатой регрессии. В обоих случаях эти модели могут быть эффективными для прогнозирования, только когда есть несколько очень мощных предикторов. Если исход лучше прогнозируется многими слабыми предикторами, то регрессия гребня или расфасовка / усиление превзойдут как ступенчатую прямую регрессию, так и LASSO в конечном счете. LASSO намного быстрее, чем прямая ступенчатая регрессия. $p \gg n$

Очевидно, что выбор функций и их предсказание сильно перекрываются, но я никогда не говорю вам, насколько хорошо гаечный ключ служит молотком. В общем, для прогнозирования с редким числом коэффициентов модели и я бы предпочел LASSO, а не пошаговый выбор модели вперед. $p \gg n$

— Adamo
источник

4

Вы хотите выбрать подмножество предикторов в соответствии с некоторыми критериями. Это может быть AIC в выборке или скорректированный R ^ 2, или перекрестная проверка, не имеет значения.

Вы можете протестировать каждую комбинацию подмножеств предиктора и выбрать лучшее подмножество. Однако

Очень трудоемкий из-за комбинаторного взрыва параметров.
Работает, если у вас больше параметров, чем наблюдений, в том смысле, что вы тестируете все комбинации предикторов, которые дают решение

Вы можете использовать пошаговый выбор вперед

Менее трудоемкий, но не может получить абсолютную лучшую комбинацию, особенно когда предикторы коррелированы (можно выбрать один предиктор и не получить дальнейшего улучшения, если добавление двух других предикторов продемонстрировало бы улучшение)
Работает, даже когда у вас больше параметров, чем наблюдений

Вы можете использовать обратную ликвидацию

Не работает, если у вас больше параметров, чем наблюдений, нет единой хорошей отправной точки (теоретически вы можете начать со всех действительных отправных точек, работать в обратном направлении, выбрать лучшую, но это не то, что обычно подразумевается под обратным исключением)
Как и шаг вперед, менее трудоемкий, чем у всех подмножеств, но, возможно, не получится абсолютно лучшая комбинация, особенно когда предикторы коррелируют

Вы могли бы использовать LASSO

Работает, даже когда у вас больше параметров, чем наблюдений
Эффективное использование процессора, когда у вас много параметров и комбинаторный взрыв подмножеств
Добавляет регуляризацию

Что касается вашего вопроса о том, почему LASSO работает лучше на ваших данных в резюме

Одной из возможностей является описанная выше зависимость от пути - LASSO может найти лучшее подмножество. Возможно, ему повезло, возможно, LASSO вообще / иногда получает лучшие подмножества, я не уверен. Возможно, есть литература на эту тему.
Другая (более вероятная) возможность состоит в том, что регуляризация LASSO предотвращает переоснащение, поэтому LASSO работает лучше в CV / out of sample.

В итоге, LASSO дает вам регуляризацию и эффективный выбор подмножеств, особенно когда у вас много предикторов.

Кстати, вы можете сделать LASSO и выбрать свою модель, используя CV (наиболее распространенный), но также используя AIC или какой-то другой критерий. Запустите вашу модель с регуляризацией L1 и без ограничений, затем постепенно ужесточайте ограничение, пока AIC не достигнет минимума, или ошибки CV, или критерия по вашему выбору. См. Http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html.

— Роки МакНатс
источник