Почему Lasso или ElasticNet работают лучше, чем Ridge, когда функции взаимосвязаны


17

У меня есть набор из 150 функций, и многие из них тесно связаны друг с другом. Моя цель - предсказать значение дискретной переменной, диапазон которой составляет 1-8 . Мой размер выборки 550 , и я использую 10-кратную перекрестную проверку.

AFAIK, среди методов регуляризации (Lasso, ElasticNet и Ridge), Ridge более строг в отношении корреляции между функциями. Вот почему я ожидал, что с Риджем я получу более точный прогноз. Однако мои результаты показывают, что средняя абсолютная ошибка Лассо или Эластика составляет около 0,61, тогда как для регрессии гребня этот показатель равен 0,97 . Интересно, что было бы объяснением этого? Это потому, что у меня много функций, и Лассо работает лучше, потому что делает выбор функций, избавляясь от лишних функций?


1
Как вы думаете, почему ридж должен работать лучше? какой у вас размер выборки?
bdeonovic

1
Что означает «более строгий к регрессии»?
bdeonovic

Ответы:


21

Предположим, у вас есть две сильно коррелированные предикторные переменные , и предположим, что обе центрированы и масштабированы (что означает ноль, дисперсия 1). Тогда штраф гребня на векторе параметров равен β 2 1 + β 2 2, в то время как штрафной член Лассо равен β 1+ β 2 . Теперь, так как модель считается высоко коллинеарной, так что x и z более или менее могут заменить друг друга в предсказании Y , так много линейных комбинаций x , z, где мы просто замещаем частичноИкс,Zβ12+β22|β1|+|β2|ИксZYИкс,Z для z , будет очень похожим в качестве предикторов, например, 0,2 x + 0,8 x , 0,3 x + 0,7 z или 0,5 x + 0,5 zИксZ0.2Икс+0.8Икс,0,3Икс+0.7Z0,5Икс+0,5Zбудет примерно так же хорошо, как предсказатели. Теперь рассмотрим эти три примера: штраф Лассо во всех трех случаях равен 1, в то время как штраф гребня отличается, соответственно 0,68, 0,58, 0,5, поэтому штраф гребня предпочтет равное взвешивание коллинеарных переменных, в то время как штраф Лассо не сможет выбрать. Это одна из причин, по которой гребень (или, в более общем смысле, эластичная сеть, представляющая собой линейную комбинацию штрафов лассо и гребня) будет лучше работать с коллинеарными предикторами: когда данные дают мало оснований выбирать между различными линейными комбинациями коллинеарных предикторов, лассо просто «бродить», в то время как гребень имеет тенденцию выбирать равные веса. Это последнее может быть лучшим предположением для использования с будущими данными! И, если это так с текущими данными, может показаться при перекрестной проверке как лучшие результаты с гребнем.

Мы можем рассматривать это в байесовской манере: Ридж и Лассо подразумевают различную априорную информацию, и априорная информация, подразумеваемая хребтом, в таких ситуациях, как правило, более разумна. (Это объяснение здесь я узнал более или менее из книги: «Статистическое обучение с редкостью, лассо и обобщения» Тревора Хасти, Роберта Тибширани и Мартина Уэйнрайта, но в этот момент я не смог найти прямую цитату).


4
Хорошая мысль о возможности работы Ridge над будущими данными. Различие между ошибкой перекрестной проверки в существующих данных и полезностью новых данных слишком часто пропускается. Для некоторой оценки последнего ОП может повторить все процессы построения моделей LASSO, эластичной сети и гребня для нескольких выборочных загрузочных выборок данных, а затем изучить ошибки при применении ко всему набору данных. Это по крайней мере тестирует процесс построения модели.
EdM

Мне не очевидно, почему было бы выгодно выбирать равные веса для коллинеарных данных? Может кто-нибудь уточнить этот момент?
Рамон Мартинес

3

Самое важное различие между лассо и хребтом состоит в том, что лассо, естественно, делает выбор, особенно там, где ковариаты очень коррелированы. Невозможно быть по-настоящему уверенным, не увидев подходящих коэффициентов, но легко предположить, что среди этих взаимосвязанных функций многие были просто бесполезны.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.