В сжатом восприятии есть теорема, гарантирующая, что имеет уникальное разреженное решение c (подробности см. В приложении).c
Есть ли аналогичная теорема для лассо? Если такая теорема существует, она не только гарантирует стабильность лассо, но и дает лассо более осмысленную интерпретацию:
Лассо может раскрыть вектор c коэффициента разреженной регрессии, который используется для генерации отклика при .
Я задаю этот вопрос по двум причинам:
Я думаю, что «лассо предпочитает разреженное решение» - это не ответ на вопрос, зачем использовать лассо для выбора функций, так как мы даже не можем сказать, в чем преимущество выбранных нами функций.
Я узнал, что Лассо известен своей нестабильностью при выборе функций. На практике мы должны запустить образцы начальной загрузки, чтобы оценить его стабильность. Какова самая важная причина, которая вызывает эту нестабильность?
Приложение:
Дано . является разреженным вектором ( ). Процесс генерирует ответ . Если имеет NSP (свойство нулевого пространства) порядка и ковариационная матрица не имеет собственного значения, близкого к нулю, будет единственное решение для
Эта теорема также говорит, что если не имеет NSP порядка , просто безнадежно решить .Ω argmin c : y = X c ‖ c ‖ 1
РЕДАКТИРОВАТЬ:
Получив эти замечательные ответы, я понял, что растерялся, когда задавал этот вопрос.
Почему этот вопрос сбивает с толку:
Я прочитал исследовательскую работу, в которой мы должны решить, сколько элементов (столбцов) будет иметь матрица проектирования (вспомогательные элементы создаются из основных элементов). Поскольку это типичная задача, ожидается , что будет построена правильно, так что решение Лассо может быть хорошим приближением к реальному разреженному решению. n < p D
Рассуждения основаны на теореме, которую я упомянул в приложении: если мы стремимся найти разреженное решение , лучше иметь NSP порядка .c X Ω
Для общей матрицы, если нарушается, тоN > C Ω ln M
стабильное и надежное восстановление из и невозможноD P
X P y соответствует , соответствует
... как и ожидалось из соотношения , выбор дескриптора становится более нестабильным, т. е. для разных обучающих наборов выбранный дескриптор часто отличается ...
Вторая цитата - это та часть, которая смущает меня. Мне кажется, что при нарушении неравенства это не просто решение, может быть, неуникальное (не упомянутое), но дескриптор также станет более нестабильным.