Каковы некоторые из наиболее важных «ранних работ» по методам регуляризации?

10

В нескольких ответах, которые я видел, пользователи CrossValidated предлагают OP найти ранние статьи о Lasso, Ridge и Elastic Net.

Для потомков, каковы основополагающие работы в Lasso, Ridge и Elastic Net?

— Скотт Скилз
источник

11

Так как вы просто ищете ссылки, вот список:

Тихонов Андрей Николаевич (1943). «Об устойчивости обратных задач». Академии наук СССР. 39 (5): 195–198.
Тихонов А.Н. (1963). "Решение поставленных задач и метод регулирования". Академии наук СССР. 151: 501–504. Перевод в «Решение некорректно сформулированных задач и метод регуляризации». Советская математика. 4: 1035–1038.
Hoerl AE, 1962, Применение анализа гребня к регрессионным задачам, Chemical Engineering Progress, 1958, 54–59.
Артур Э. Хёрл; Роберт В. Кеннард (1970). «Хребетная регрессия: предвзятая оценка для неортогональных задач». Technometrics. 12 (1): 55–67. DOI: 10.2307 / 1267351. https://pdfs.semanticscholar.org/910e/d31ef5532dcbcf0bd01a980b1f79b9086fca.pdf
Тибширани, Роберт (1996). «Сжатие регрессии и выбор с помощью лассо» (PostScript). Журнал Королевского статистического общества, серия B. 58 (1): 267–288. MR 1379242 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf
Zou, H. and Hastie, T. (2005). Регуляризация и выбор переменных с помощью эластичной сетки. Журнал Королевского статистического общества, Серия B. 67: с. 301–320. https://web.stanford.edu/~hastie/Papers/B67.2%20%282005%29%20301-320%20Zou%20&%20Hastie.pdf

— Сандип С. Сандху
источник

1

Исторически важный документ, который, я считаю, впервые продемонстрировал, что оценки смещения могут привести к улучшению оценок для обычных линейных моделей:

Stein, C., 1956, январь. Недопустимость обычной оценки для среднего многомерного нормального распределения. В трудах третьего симпозиума Беркли по математической статистике и вероятности (том 1, № 399, с. 197-206).

Несколько более современных и важных штрафов включают SCAD и MCP:

Фан, Дж. И Ли, Р., 2001. Отбор переменных с помощью не вогнутой штрафной вероятности и ее свойств оракула. Журнал Американской статистической ассоциации, 96 (456), с.1348-1360.
Zhang, CH, 2010. Почти беспристрастный выбор переменных при минимаксном вогнутом штрафе. Летопись статистики, 38 (2), с.894-942.

И еще немного об очень хороших алгоритмах получения оценок с использованием этих методов:

Брити П. и Хуанг Дж., 2011. Алгоритмы спуска по координатам для невыпуклой регрессии с наказанием, с приложениями к выбору биологических признаков. Летопись прикладной статистики, 5 (1), с.232.
Мазумдер, Р., Фридман, JH и Хасти, Т., 2011. Sparsenet: координировать спуск с невыпуклыми штрафами. Журнал Американской статистической ассоциации, 106 (495), стр.1125-1138.

Также стоит обратить внимание на эту статью о селекторе Данцига, которая очень тесно связана с LASSO, но (я считаю) она вводит идею неравенства оракула для статистических оценок, которые являются довольно мощной идеей

Candes, E. and Tao, T., 2007. Селектор Данцига: статистическая оценка, когда p намного больше, чем n. Летопись статистики, с.2313-2351.

— dcl
источник