Что такое упругая сеточная регуляризация и как она решает недостатки Риджа (


35

Всегда ли упругая чистая регуляризация всегда предпочтительнее, чем Lasso & Ridge, поскольку она, похоже, решает недостатки этих методов? Что такое интуиция и какая математика стоит за эластичной сеткой?


6
Проверьте Hastie et al. «Элементы статистического обучения» главы 3 и 18 (поиск «упругая сеть»).
Ричард Харди

Ответы:


42

1. Какой метод предпочтительнее?

Да, эластичная сеть всегда предпочтительнее регрессии лассо и риджа, потому что она решает ограничения обоих методов, а также включает каждый из них в качестве особых случаев. Таким образом, если решение «гребень» или «лассо», действительно, является лучшим, то любая хорошая процедура выбора модели определит это как часть процесса моделирования.

Комментарии к моему сообщению указали, что преимущества эластичной сети не безоговорочны. Я по-прежнему убежден, что общность регрессии эластичной сети все же предпочтительнее, чем самостоятельная регуляризация L1 или L2 . В частности, я думаю, что спорные вопросы между мной и другими напрямую связаны с тем, какие предположения мы готовы сделать в отношении процесса моделирования. При наличии глубоких знаний об основных данных, некоторые методы будут предпочтительнее других. Тем не менее, мое предпочтение эластичной сети коренится в моем скептицизме, что можно с уверенностью знать, что L1 или L2 - истинная модель.

  1. Утверждение: предварительные знания могут избавить от необходимости использовать упругую чистую регрессию.

Это несколько круговой. Извините, если это немного легкомысленно, но если вы знаете, что LASSO (гребень) - лучшее решение, вы не спросите себя, как правильно его смоделировать; вам просто подойдет модель LASSO (хребет). Если вы абсолютно уверены, что правильным ответом является регрессия LASSO (ребра), то вы абсолютно уверены , что не будет причин тратить время на установку эластичной сетки. Но если вы немного менее уверены в том, что LASSO (ребро) является правильным способом для продолжения, я думаю, что имеет смысл оценить более гибкую модель и оценить, насколько сильно данные подтверждают предыдущее мнение.

  1. Утверждение: скромно большие данные не позволят обнаружить L1 или L2 как предпочтительные, даже в случаях, когда решение L1 или L2 является истинной моделью.

Это также верно, но я думаю, что это круговая по той же причине: если вы оценили оптимальное решение и обнаружили, что α{0,1}, то это модель, которую поддерживают данные. С одной стороны, да, ваша оценочная модель не является истинной моделью, но я должен задаться вопросом, как узнать, что истинная модель имеет значениеα=1 (илиαзнак равно0 ) до оценки любой модели. Там могут быть области, где у вас есть такие знания, но моя профессиональная работа не входит в их число.

  1. Утверждение: введение дополнительных гиперпараметров увеличивает вычислительные затраты на оценку модели.

Это актуально, только если у вас жесткие ограничения времени / компьютера; в противном случае это просто неприятность. GLMNET является алгоритмом золотого стандарта для оценки решений упругих сетей. Пользователь задает некоторое значение альфа, и он использует свойства пути решения для регуляризации, чтобы быстро оценить семейство моделей для множества значений величины штрафов λ , и он часто может оценить это семейство решений быстрее, чем просто оценить одно решение для конкретного значения λ . Так что, да, использование GLMNET действительно дает вам возможность использовать методы в виде сетки (итерируйте по некоторым значениям α и позвольте GLMNET попробовать различные значения λ s), но это довольно быстро.

  1. Утверждение: улучшенные характеристики эластичной сетки по сравнению с LASSO или ребристой регрессией не гарантируются.

Это правда, но на этапе, когда кто-то обдумывает, какой метод использовать, он не будет знать, какая из эластичных сеток, ребер или LASSO является лучшей. Если одной из причин того, что лучшим решением должно быть LASSO или регрессия гребня, то мы находимся в области требований (1). Если мы все еще не уверены, какой вариант лучше, тогда мы можем протестировать решения LASSO, ребра и эластичной сетки и сделать выбор окончательной модели на этом этапе (или, если вы академик, просто напишите свой доклад обо всех трех ). Эта ситуация с предыдущей неопределенностью либо поместит нас в область требований (2), где истинная модель - LASSO / ridge, но мы не знали об этом заранее, и мы случайно выбрали неправильную модель из-за плохо идентифицированных гиперпараметров, или эластичная сетка на самом деле лучшее решение.

  1. Утверждение: выбор гиперпараметра без перекрестной проверки сильно смещен и подвержен ошибкам .

Надлежащая проверка модели является неотъемлемой частью любого предприятия по машинному обучению. Проверка модели также обычно является дорогостоящим шагом, поэтому можно попытаться свести к минимуму неэффективность здесь - если одна из этих неэффективностей бесполезно пытается α значения которые, как известно, бесполезны, то одним из предложений может быть сделать это. Да, конечно, делайте это, если вас устраивает убедительное заявление о том, как устроены ваши данные - но мы вернулись на территорию претензий (1) и претензий (2).

2. Что такое интуиция и математика за эластичной сеткой?

Я настоятельно рекомендую прочитать литературу по этим методам, начиная с оригинальной статьи о эластичной сети. Бумага развивает интуицию и математику и очень удобочитаема. Воспроизведение его здесь будет только в ущерб объяснениям авторов. Но сводка высокого уровня состоит в том, что упругая сеть представляет собой выпуклую сумму штрафов по гребню и лассо, поэтому целевая функция для модели гауссовой ошибки выглядит как

Остаточная среднеквадратичная ошибка+αХребет казнь+(1-α)ЛАССО казнь

для α[0,1],

Хуэй Цзоу и Тревор Хасти. « Регуляризация и выбор переменных с помощью эластичной сети ». JR Statistic. Soc., Том 67 (2005), часть 2., с. 301-320.

Ричард Харди отмечает, что это более подробно описано в статье Hastie et al. «Элементы статистического обучения» главы 3 и 18.

3. Что, если вы добавите дополнительный LQ нормы ?

Это вопрос, заданный мне в комментариях:

L3γγ0L3

Я ценю, что суть вопроса такова: «Если это так, как вы утверждаете, и два штрафа хороши, почему бы не добавить еще один?» Но я думаю, что ответ заключается в том, почему мы регулируем в первую очередь.

L1NNL2пL2п>N

Если оставить в стороне ни одну из этих проблем, регуляризованная модель может по-прежнему превосходить модель ML, поскольку свойства усадки оценщиков являются «пессимистичными» и коэффициенты притяжения к 0.

L3 регуляризации . В задачах, над которыми я работал, мы обычно сталкиваемся с обеими проблемами: включением плохо коррелированных характеристик (гипотез, которые не подтверждаются данными), и коллинеарными функциями.

L1L2 штрафы по параметрам являются единственными, которые обычно используются.

L1L2@whuber предлагает этот комментарий:

L2L1L1L2

LqL1L2 - и все это без необходимости дополнительной настройки гиперпараметра.


4
Сказать, что «эластичная сетка всегда предпочтительнее, чем регрессия лассо и гребня», может быть слишком сильно. В малых или средних образцах эластичная сетка не может выбрать чистый раствор LASSO или чистый гребень, даже если первый или последний действительно является подходящим. Учитывая сильные предварительные знания, имеет смысл выбрать LASSO или гребень вместо эластичной сетки. Однако, в отсутствие предварительных знаний, эластичная сеть должна быть предпочтительным решением.
Ричард Харди

4
α

7
γγ0

5
L1L2L3

3
«Мы можем протестировать решения LASSO, ребристые и эластичные сетки и сделать выбор окончательной модели», - мы можем, но, конечно, это сама по себе новая процедура, оптимизирующая критерий, подверженный случайной ошибке, который может или не может работать лучше чем LASSo, или регрессия гребня, или только эластичная сеть.
Scortchi - Восстановить Монику

11

Я в целом согласен с ответом @Sycorax, но я хотел бы добавить некоторые уточнения.

Сказать, что «эластичная сетка всегда предпочтительнее, чем регрессия лассо и гребня», может быть слишком сильно. В малых или средних образцах эластичная сетка не может выбрать чистый раствор LASSO или чистый гребень, даже если первый или последний действительно является подходящим. Учитывая сильные предварительные знания, имеет смысл выбрать LASSO или гребень вместо эластичной сетки. Однако, в отсутствие предварительных знаний, эластичная сеть должна быть предпочтительным решением.

Кроме того, эластичная сетка в вычислительном отношении дороже, чем LASSO или гребень, поскольку относительный вес LASSO по сравнению с гребнем должен быть выбран с использованием перекрестной проверки. Если разумная сетка значений альфа равна [0,1] с размером шага 0,1, это будет означать, что эластичная сеть примерно в 11 раз дороже в вычислительном отношении, чем LASSO или гребень. (Поскольку LASSO и ridge не имеют одинаковой вычислительной сложности, результат является приблизительным.)


1
Или действительно, ЛАССО или регрессия гребня могут не дать улучшенной прогностической эффективности по сравнению с непенализованной регрессией.
Scortchi - Восстановить Монику

4
Какого рода предварительные знания могут привести к предпочтению лассо, а какие предварительные знания - к гребню?
говорит амеба, восстанови Монику

4
@amoeba, если правдоподобно, что все регрессоры релевантны, но они сильно коррелированы, то выбор переменных не требуется, и поэтому предпочтение может быть отдано гребню. Если, с другой стороны, некоторые из регрессоров, вероятно, будут совершенно неактуальны (но мы просто не знаем, какие из них), тогда необходим выбор переменных, и LASSO может быть предпочтительным. Эти знания будут взяты из предметной области. Я думаю, что может быть несколько примеров в Hastie et al. «Элементы статистического обучения» или в соответствующей литературе, я просто не помню, где я это читал.
Ричард Харди

1
@kjetilbhalvorsen, спасибо, это было полезно.
Ричард Харди

1
@amoeba, гребень лучше для коррелированных данных, где L2 поощряет много небольших весов (усреднение) по входам. Классическим примером являются повторные измерения с независимым шумом (например, обработка сигнала или, например, множественные исследования одного и того же субъекта), тогда как l1 - это лучше, когда 1 var доминирует над другим, классический случай - иерархические данные: где коэффициенты должны оцениваться на самом высоком уровне в иерархии.
seanv507
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.