Почему усадка работает?

Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико, почему сокращение параметра не приводит к худшему прогнозу?

— aspiringstatistician
источник

Грубо говоря, существует три разных источника ошибки предсказания:

предвзятость вашей модели
дисперсия вашей модели
необъяснимая разница

Мы ничего не можем сделать с пунктом 3 (за исключением попыток оценить необъяснимую дисперсию и включения ее в наши прогнозные плотности и интервалы прогнозирования). Это оставляет нас с 1 и 2.

Если у вас действительно есть «правильная» модель, то, скажем, оценки параметров OLS будут несмещенными и будут иметь минимальную дисперсию среди всех несмещенных (линейных) оценок (они СИНИЕ). Прогнозы из модели OLS будут лучшими линейными непредвзятыми прогнозами (BLUP). Это звучит неплохо.

Однако оказывается, что, хотя у нас есть непредвзятые прогнозы и минимальная дисперсия среди всех непредвзятых прогнозов, дисперсия все еще может быть довольно большой. Что еще более важно, мы можем иногда вводить «небольшое» смещение и одновременно сохранять «большую» дисперсию - и, если компромисс будет правильным, мы можем получить меньшую погрешность прогнозирования с помощью смещенной (более низкой дисперсии) модели, чем с непредвзятой ( более высокая дисперсия) одна. Это называется «компромиссом смещения дисперсии», и этот вопрос и его ответы являются поучительными: когда предвзятая оценка предпочтительнее объективной?

И регуляризация, такая как лассо, регрессия гребня, эластичная сетка и так далее, делают именно это. Они тянут модель к нулю. (Байесовские подходы похожи - они притягивают модель к априорам.) Таким образом, регуляризованные модели будут смещены по сравнению с нерегулярными моделями, но также будут иметь меньшую дисперсию. Если вы выберете правильное право регуляризации, результатом будет прогноз с меньшей ошибкой.

Если вы ищете «регуляризацию компромисса смещения» или подобное, вы получите пищу для размышлений. Эта презентация, например, полезна.

$\lambda$ $\lambda\to\infty$ $\lambda$ $\lambda$ такая, что модель является нулевой моделью. Всегда держите ваши квантификаторы прямыми.) Однако, нулевая модель, конечно, также будет иметь гигантский уклон. В конце концов, это не заботится о реальных наблюдениях.

$\lambda$

(Я пишу небольшую статью по этому вопросу, которая, надеюсь, будет довольно доступной. Я добавлю ссылку, как только она станет доступной.)

— С. Коласса - Восстановить Монику
источник

Кажется, что ключевой элемент головоломки: почему методы усадки уменьшают дисперсию? (То, что они вносят некоторую предвзятость, более или менее очевидно.) Вы просто заявляете, что они делают; Можете ли вы предоставить некоторую интуицию для этого?

— говорит амеба: восстанови Монику

@Stephan Kolassa Таким образом, добавление термина штрафования, учитывающего размер коэффициентов, добавляет небольшой уклон, но уменьшает изменчивость, потому что штрафует большие коэффициенты, которые обычно имеют большую изменчивость, чем меньшие коэффициенты. Это правильно? Тогда, в конечном счете, мы не настолько обеспокоены получением «правильного» значения для какого-либо конкретного коэффициента, мы просто заинтересованы в общей предсказательной способности модели?

— начинающий

@aspiringstatistician: Ваше второе предложение прямо на месте. (Вспомните Джорджа Бокса о «неправильных, но полезных» моделях.) Я бы не стал сильно беспокоиться о том, что оценки больших параметров сокращаются больше, чем оценки малых. Во-первых, это будет зависеть от стандартизации. Во-вторых, если ваши большие значения параметров хорошо оценены (т. Е. С низкой ошибкой), то они не обязательно будут сильно сокращены. Регуляризация «предпочитает» сокращать те параметры, которые плохо определены, то есть имеют высокую дисперсию.

— С. Коласса - Восстановить Монику

+1. Удачи с бумагой! @aspiringstatistician: Очень хорошее наблюдение, что усадка не связана с получением правильной модели; это совершенно верно (и стоит задуматься): правильно заданная модель может иметь худшую прогностическую способность, чем регуляризованная и «менее верная» (см. пример на стр. 307 настоящего документа ).

— говорит амеба, восстанови Монику

+1. Просто хотел добавить, что, хотя вопрос был об интуиции, лежащей в основе регуляризованных моделей, он кажется немного неполным, не говоря уже о байесовском выводе этих моделей. Например, при сравнении регрессии гребня с простой MLE, в большинстве приложений мне кажется естественным думать о эффекте, полученном из нормального распределения, в отличие от равномерного (неправильного) распределения. Таким образом, рассматривая эти методы как особые случаи оценки MAP, становится ясно, почему следует выбрать регрессию гребня.

— Jlimahaverford

$p \geq 3$

Прочитайте этот ответ для получения дополнительной информации. По-видимому, парадокс Штейна связан с известной теоремой о том, что процесс движения Броуана в 3 или более измерениях не является рекуррентным (блуждает повсюду, не возвращаясь к началу координат), тогда как 1 и 2-мерные броуновцы являются рекуррентными.

Парадокс Штейна держится независимо от того, к чему вы сжимаетесь, хотя на практике лучше, если вы сжимаетесь к истинным значениям параметров. Это то, что делают байесовцы. Они думают, что знают, где находится истинный параметр, и стремятся к нему. Затем они утверждают, что Штейн подтверждает их существование.

Это называется парадоксом именно потому, что оно бросает вызов нашей интуиции. Однако, если вы думаете о броуновском движении, единственный способ вернуть трехмерное броуновское движение к исходному положению - наложить на ступени штраф за затухание. Оценка усадки также накладывает своего рода демпфирование на оценки (уменьшает дисперсию), поэтому оно работает.

— Placidia
источник

Есть ли у вас ссылка на связь между парадоксом Штейна и броуновскими процессами?

— kjetil b halvorsen

Перейдите по моей ссылке в разделе «Прочитайте этот ответ для более». В этом ответе есть ссылка на документ, который устанавливает связь.

— Плацидия

Байесовские оценки допустимы по полной теореме о классе: она не имеет ничего общего с оценкой JS напрямую. Тем не менее, тот факт, что JS доминирует в среднем по выборке, сделал людей более заинтересованными в изучении байесовских оценок. (Я возражаю против утверждения, что байесовцы «утверждают, что Штейн подтверждает их существование».)

— user795305