Регуляризация нормы и нормы эмпирического исследования

Существует много способов выполнения регуляризации - например, регуляризация на основе норм , и . Согласно Friedman Hastie & Tibsharani , лучший регуляризатор зависит от проблемы: а именно от природы истинной целевой функции, конкретной используемой основы, отношения сигнал / шум и размера выборки. $L_0$ $L_1$ $L_2$

Есть ли эмпирические исследования, сравнивающие методы и эффективность различных методов регуляризации?

r regression machine-learning regularization

— Рам Ахлувалия
источник

Все три автора находятся в Стэнфорде. Почему бы просто не спросить одного из них напрямую. Роб Тибширани очень доступен, как и Джерри Фридман. Фридман провел много оригинальных исследований в области регуляризованной регрессии. Так что он может быть лучшим выбором.

— Майкл Р. Черник

Конечно, я не могу сказать, что дал ему ответ. Но направление его к лучшему человеку, который ответит на вопрос, похоже на нечто большее, чем обычный комментарий, который обычно пытается прояснить. Я часто задаюсь вопросом, почему люди всегда задают свои вопросы здесь, когда они могут пойти прямо к источнику. Я почти уверен, что Фридман может ответить на него, и так много смысла обращаться к источнику, особенно когда речь идет о чем-то, что написано в их книге. Я мог бы пойти к источнику, получить ответ, а затем представить его здесь.

— Майкл Р. Черник

Люди запуганы статусом источника как авторитета, предполагают, что источник слишком занят, чтобы иметь дело с их (по их мнению) второстепенным и неважным вопросом, боятся получить грубость «почему вы меня беспокоите этим?» ответ ... Гораздо проще перейти к источнику, если вы тоже являетесь источником, возможно, для других вещей, в этой области.

— Jbowman

@jbowman Да. Я это понимаю. Но вы заметите, что я знаю Тибширани и Фридмана лично и заверил, что их страх необоснован с этими авторами. Я не упомянул Хасти, потому что я не знаю его так хорошо, как другие.

— Майкл Р. Черник

@chl Я не думаю, что мы можем реально ожидать, что они присоединятся к сайту. Это требует слишком много времени для занятых профессоров с несколькими исключениями, такими как Фрэнк Харрелл и, возможно, другие, которые используют псевдонимы. Но я думаю, что они найдут время, чтобы ответить на конкретные вопросы, присланные им напрямую.

— Майкл Р. Черник

Ответы:

Давайте рассмотрим штрафную линейную модель.

казнь не очень используется и часто заменяется нормой, математически более гибким. $L_0$ $L_1$

регуляризация обладает свойством построить редкую модель. Это означает, что только несколько переменных будут иметь ненулевой коэффициент регрессии. Это особенно используется, если вы предполагаете, что только несколько переменных оказывают реальное влияние на выходные переменные. Если есть очень коррелированные переменные, только одна из них будет выбрана с коэффициентом, отличным от 0. $L_1$

штраф, как если добавить значение по диагонали входной матрицы. Это может быть использовано, например, в ситуациях, когда количество переменных больше, чем количество выборок. Для того чтобы получить квадратную матрицу. С штрафом нормы все переменные имеют ненулевой коэффициент регрессии. $L_2$ $\lambda$ $L_2$

— Donbeo
источник

В качестве дополнительного вклада, особенно в отношении нормы , я не знаю, что я бы сказал, потому что это не «математически гибкий»; Я думаю, что это в первую очередь потому, что оптимизация непомерно дорога (есть способы попытаться сделать это, но я не думаю, что что-то работает в полной общности). Я знаю одну фигуру «большого сыра», которая работает в выборе переменных, которая сказала, что он хотел бы использовать штраф и что вычисления - единственная причина, по которой он этого не делает.

L_{0}

$L_0$

L_{0}

$L_0$

— парень

Несколько дополнений к ответу @Donbeo

1) Норма L0 не является нормой в истинном смысле. Это число ненулевых записей в векторе. Эта норма явно не является выпуклой нормой и не является нормой в истинном смысле. Следовательно, вы можете увидеть такие термины, как L0 «норма». Это становится комбинаторной проблемой и, следовательно, NP трудным.

2) Норма L1 дает разреженное решение (ищите LASSO). Кандес, Донохо и т. Д. Имеют основополагающие результаты, которые показывают, что если истинное решение действительно скудное, то штрафные методы L1 восстановят его. Если базовое решение не является разреженным, вы не получите базовое решение в случаях, когда p >> n. Есть хорошие результаты, которые показывают, что Лассо является последовательным.

3) Существуют такие методы, как эластичная сеть от Zhou и Hastie, которые объединяют штрафованные решения L2 и L1.

— Sid
источник