Оптимальный выбор штрафа для лассо


15

Существуют ли аналитические результаты или экспериментальные работы относительно оптимального выбора коэффициента штрафного члена . Под оптимальным я подразумеваю параметр, который максимизирует вероятность выбора наилучшей модели или минимизирует ожидаемые потери. Я спрашиваю, потому что часто нецелесообразно выбирать параметр путем перекрестной проверки или начальной загрузки, либо из-за большого количества случаев проблемы, либо из-за размера рассматриваемой проблемы. Единственный положительный результат, о котором я знаю, это Candes and Plan, идеальный выбор модели путем минимизации .11


2
Вам известны документы, устанавливающие результаты согласованности для лассо? Knight & Fu (2000), Yu & Zhao (2006) и различные работы Майнсхаузена.
кардинал

Да, но мой вопрос не об асимптотической согласованности, который является предметом упомянутых вами работ.
gappy

1
Эти документы (в основном) касаются последовательности выбора модели , которая, я бы сказал, очень связана с вопросом, который вы задали. :)
кардинал

Ответы:


2

Оформить теорему 5.1 этого Bickel et al. , Статистически оптимальный выбор с точки зрения ошибки : (с высокой вероятностью) для константы .yy^(λ)22λ=AσnoiselogpnA>22


Похоже, это не совсем подходит, так как требует знания . Фактически, именно эта проблема и мотивирует квадратный корень лассо ( arxiv.org/pdf/1009.5689.pdf )σnoise
user795305

5

Я полагаю, что вас больше всего интересует регрессия, как и в цитируемой статье, а не другие применения -пенальти (скажем, графического лассо).1

Затем я полагаю, что некоторые ответы можно найти в статье « О степенях свободы» лассо, выполненной Zou et al. Вкратце, он дает аналитическую формулу для эффективных степеней свободы , которая для квадрата потери ошибок позволяет заменить CV аналитической статистикой типа , скажем.Cp

Еще одно место, которое нужно посмотреть, - это селектор Данцига: статистическая оценка, когда p намного больше n, и документы для обсуждения в том же выпуске Annals of Statistics. Насколько я понимаю, они решают проблему, тесно связанную с регрессией лассо, но с фиксированным выбором коэффициента штрафа. Но, пожалуйста, ознакомьтесь с документами для обсуждения.

Если вы не заинтересованы в прогнозировании, но в выборе модели, я не знаю аналогичных результатов. Оптимальные модели прогнозирования часто приводят к слишком большому количеству выбранных переменных в регрессионных моделях. В статье « Выбор стабильности» Майнсхаузен и Бюльманн представляют метод субсэмплинга, более полезный для выбора модели, но он может быть слишком сложным в вычислительном отношении для ваших нужд.


(+1) Все три из этих статей заслуживают внимательного прочтения для тех, кто интересуется этой темой. У бумаги выбора Данцига есть очень хорошая математика; однако я не видел, чтобы это получило большую тягу в приложениях, и при этом я не ожидаю этого. Я думаю, помимо всего прочего, очень шумные пути регуляризации заставляют людей нервничать, и поэтому, без очевидной выгоды от лассо, делают его трудно продаваемым.
кардинал

Обратите внимание, что хотя число ненулевых коэффициентов для данного значения параметра регуляризации является несмещенной оценкой для DoFs при этом значении, эта оценка является чрезвычайно высокой дисперсией.
дохматоб

1

Так как этот вопрос был задан, был достигнут интересный прогресс. Например, рассмотрим эту статью

Chichignoud, M., Lederer, J. & Wainwright, M. (2016). Практическая схема и быстрый алгоритм настройки лассо с гарантиями оптимальности. Журнал исследований машинного обучения, 17, 1–17.

Они предлагают метод выбора параметра настройки LASSO с гарантированными конечными выборочными гарантиями для выбора модели. Как говорится в документе, «Для стандартных схем калибровки, в том числе перекрестной проверки, в литературе отсутствуют сопоставимые гарантии. Фактически нам неизвестны какие-либо конечные гарантии образца для стандартных схем калибровки».


0

Это не отвечает на ваш вопрос, но: в больших настройках данных может быть хорошо настроить регуляризатор с помощью одного разделения на поезд / тест, вместо того, чтобы делать это примерно 10 раз в перекрестной проверке (или больше для начальной загрузки). Размер и репрезентативность выборки, выбранной для devset, определяет точность оценки оптимального регуляризатора.

По моему опыту, удерживаемые потери относительно постоянны в широком диапазоне регуляризаторов. Я уверен, что этот факт не может иметь место для других проблем.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.