Мягкая порога против штрафной санкции Лассо

Я пытаюсь обобщить то, что я до сих пор понимал в многомерном анализе наказаний с помощью многомерных наборов данных, и я все еще борюсь за то, чтобы получить правильное определение мягкого порогового определения по сравнению с штрафом Лассо (или ). $L_1$

Точнее, я использовал разреженную регрессию PLS для анализа структуры двухблочных данных, включая геномные данные ( однонуклеотидные полиморфизмы , где мы рассматриваем частоту минорного аллеля в диапазоне {0,1,2}, рассматриваемого как числовая переменная) и непрерывные фенотипы (баллы, определяющие количественные характеристики личности или асимметрию мозга, также рассматриваются как непрерывные переменные). Идея заключалась в том, чтобы выделить наиболее влиятельных предикторов (здесь, генетические вариации на последовательности ДНК), чтобы объяснить межиндивидуальные фенотипические вариации.

Первоначально я использовал пакет mixOmics R (ранее integrOmics), в котором предусмотрены штрафные регрессии PLS и регуляризованный CCA . Глядя на код R, мы обнаружили, что «редкость» в предикторах просто вызывается путем выбора верхних переменных с самыми высокими нагрузками (в абсолютном значении) для го компонента, (алгоритм итеративная и расчетная загрузка переменных для компонентов, дефлятирование блока предикторов на каждой итерации, см. Sparse PLS: Выбор переменной при интеграции данных Omics для обзора). Наоборот, $k$ $i$ $i=1,\dots, k$ $k$ SPLS пакет в соавторстве с С. Keleş (см разреженных частных наименьших квадратов регрессии для одновременного измерения уменьшения и выбора переменных для более формального описания подхода , проведенного этими авторами) реализует -penalization для переменной пенализации. $L_1$

Для меня не очевидно, существует ли строгая «биекция», так сказать, между итеративным выбором признаков на основе мягкого порога и регуляризации . Итак, мой вопрос: есть ли математическая связь между ними? $L_1$

Ссылки

Chun, H. и Kele ̧s, S. (2010), Разреженные частичные наименьшие квадраты для одновременного уменьшения размера и выбора переменной . Журнал Королевского статистического общества: Серия B , 72 , 3–25.
Le Cao, K.-A., Rossouw, D., Robert-Granie, C. и Besse, P. (2008), Редкий PLS для выбора переменных при интеграции данных Omics . Статистические применения в генетике и молекулярной биологии , 7 , статья 35.

— хл
источник

Ответы:

$l1$ $p$ $p$ $l1$

— user603
источник

@kwak Хорошо, алгоритм LARS кажется в значительной степени более сложным, чем простое определение пороговых значений важности переменных, но дело в том, что я не вижу четкой связи между параметром штрафов и количеством переменных, которые просят сохранить в модели; мне кажется, мы не можем обязательно найти параметр штрафа, который дал бы точно фиксированное число переменных.

— ЧЛ

@chl:> Вы имеете в виду S-PLS? (Вы написали LARS, что отличается от любого алгоритма, который вы обсуждали). Действительно, существует монотонная связь между параметром штрафов и числом компонентов, но это не линейное отношение, и это отношение варьируется в зависимости от конкретного случая (зависит от набора данных / проблемы).

— user603

@kwak L1-штраф может быть достигнут с помощью LARS, если я не вводу в заблуждение. Ваш второй момент - это то, что я имею в виду на самом деле; есть ли у вас упоминание об этом?

— ЧЛ

@chl:> * L1-наказание может быть достигнуто с помощью LARS, если я не введу в заблуждение * я этого не знал (и вроде как сомневался в этом). Можете ли вы предоставить ссылку? Спасибо. на ваш второй вопрос: посмотрите «Степени свободы» лассо Хуэй Цзоу, Тревора Хасти и Роберта Тибширани Источник: Ann. Statist. Том 35, № 5 (2007), 2173-2192. (есть много версий без шлюза).

— user603 23.09.10

@kwak Посетите веб-страницу Тибширани , www-stat.stanford.edu/~tibs/lasso.html и larsпакет R; другие методы включают спуск по координатам (см. JSS 2010 33 (1), bit.ly/bDNUFo ), а scikit.learnпакет Python предлагает оба подхода, bit.ly/bfhnZz .

— ЧЛ

$L_1$ $L_1$

$L_1$ $X$ $X$ $1$

$X$

— vqv
источник

(+1) Спасибо за это, особенно за статью Фридмана.

— хл