Почему усадка действительно работает, что такого особенного в 0?

На этом сайте уже есть пост, посвященный той же проблеме: почему работает усадка?

Но, хотя ответы и популярны, я не верю, что суть вопроса действительно решена. Совершенно очевидно, что введение некоторого смещения в оценку приводит к снижению дисперсии и может улучшить качество оценки. Тем не мение:

1) Почему ущерб, нанесенный смещением, меньше по сравнению с дисперсионным усилением?

2) Почему это всегда работает? Например, в случае регрессии Риджа: теорема существования

3) Что такого интересного в 0 (происхождение)? Ясно, что мы можем сжать все, что захотим (например, оценщик Штейна ), но будет ли он работать так же хорошо, как и источник?

4) Почему различные универсальные схемы кодирования предпочитают меньшее количество бит вокруг источника? Эти гипотезы просто более вероятны?

Ожидаются ответы со ссылками на доказанные теоремы или установленные результаты.

regularization ridge-regression shrinkage

— Кагдас Озгенц
источник

@ KarolisKoncevičius, спасибо за исправление ссылок! Позвольте мне отметить, однако, что ваши языковые изменения могут быть не очень полезными, за исключением последнего. Другие, кажется, добавляют некоторый избыточный текст и, таким образом, делают пост немного менее читабельным.

— Ричард Харди

3) "что такого интересного в происхождении?" как вы понимаете это утверждение? если у вас есть групповой фактор (например, страна) и индивидуальный фактор (например, город), то усадка приведет к усреднению до уровня страны, и тогда только отклонения уровня города с достаточным количеством данных будут иметь коэффициент), т.е. ваша модель будет переведена на уровень группы. (по стране) среднее (путем приведения коэффициентов уровня города к нулю) ... и аналогично для большего количества уровней в иерархиях (и нескольких иерархиях)

— seanv507

Ответы:

1) Почему ущерб, нанесенный смещением, меньше по сравнению с дисперсионным усилением?

Он не должен, это просто , как правило , есть. Стоит ли компромисс, зависит от функции потерь. Но вещи, которые нас интересуют в реальной жизни, часто похожи на квадрат ошибки (например, нас больше заботит одна большая ошибка, чем две ошибки, вдвое меньшие).

В качестве контрпримера - представьте, что при поступлении в колледж мы немного снижаем баллы SAT по отношению к среднему SAT для их демографических показателей (как они определены). Если все сделано правильно, это уменьшит дисперсию и среднеквадратичную ошибку оценок (своего рода) способностей человека при введении смещения. Большинство людей ИМХО утверждают, что такой компромисс недопустим.

2) Почему это всегда работает?

3) Что такого интересного в 0 (происхождение)? Ясно, что мы можем сжать где угодно (например, оценщик Штейна), но будет ли он работать так же хорошо, как и источник?

Я думаю, что это потому, что мы обычно сжимаем коэффициенты или оценки эффекта. Есть основания полагать, что большинство эффектов невелики (см., Например , дубль Эндрю Гельмана ). Один из способов сказать, что мир, в котором все оказывает сильное влияние на все, - это жестокий непредсказуемый мир. Поскольку наш мир достаточно предсказуем, чтобы позволить нам жить долго и строить полустабильные цивилизации, из этого следует, что большинство последствий невелики.

Поскольку большинство эффектов невелики, полезно неправомерно уменьшить несколько действительно больших, а также корректно уменьшить количество незначительных эффектов.

Я считаю, что это просто свойство нашего мира, и вы, вероятно, могли бы построить самосогласованные миры, в которых сжатие нецелесообразно (скорее всего, сделав среднеквадратическую ошибку непрактичной функцией потерь). Это просто не тот мир, в котором мы живем.

С другой стороны, когда мы рассматриваем усадку в качестве предварительного распределения в байесовском анализе, существуют случаи, когда усадка до 0 активно вредна на практике.

Одним из примеров является шкала длины в гауссовых процессах (где 0 проблематично). В руководстве Стэна рекомендуется использовать априор, который устанавливает незначительный вес, близкий к нулю, т.е. эффективно «сжимая» небольшие значения от нуля. Точно так же рекомендуемые априоры для дисперсии в отрицательном биномиальном распределении эффективно уменьшаются от нуля. Наконец, что не менее важно, всякий раз, когда нормальное распределение параметризовано с точностью (как в INLA), полезно использовать обратное гамма-преобразование или другие предыдущие распределения, которые уменьшаются от нуля.

4) Почему различные универсальные схемы кодирования предпочитают меньшее количество бит вокруг источника? Эти гипотезы просто более вероятны?

Теперь это выход из моей глубины, но Википедия говорит, что в универсальной схеме кодирования мы ожидаем ( по определению ) для всех положительных так что это свойство, по-видимому, является простым следствием определения и не связано с усадкой (или я что-то упустил?) $P(i) ≥ P(i + 1)$ $i$

— Мартин Модрак
источник

Ответ на 1) на самом деле хорошо!

— Дэвид

Очевидно, Эндрю Гельман имел в виду стандартные модели, в которых мы умножаем коэффициенты на входы. Это не обязательно должно быть так. Что делать, если мы коэффициент входит обратно в модель? Тогда 0 взорвет вещи.

— Кагдас Озгенц

@CowboyTrader Да, и есть реальные случаи использования, где 0 проблематично, и мы уходим (добавлено в ответ). Поэтому я полагаю, что это немного подтверждает тот факт, что сжатие в сторону нуля - это просто эвристика, которая часто работает (на практике), но не фундаментальная математическая истина.

— Мартин Модрак,

Извините за мою первоначальную реакцию. Ваш ответ становится более значимым. Обратите внимание, что усадка работает при других функциях потерь, а не только при квадратичной потере. Реальная проблема, которую я преследую, это то, почему, черт возьми, это всегда работает? Для средних значений / параметров местоположения 0 кажется магическим числом.

— Кагдас Озгенц

@CowboyTrader Я мог бы что-то упустить, но, по крайней мере, в случае с оценщиком Стейна, улучшение из-за сжатия является функцией расстояния между истинными значениями и точкой, до которой вы сжимаетесь, поэтому 0 не является магическим числом. Кроме того, если велика относительно наблюдаемых значений, оценщик Штейна сместит оценку от нуля. Поэтому я не уверен, что общая модель, о которой вы говорите, действительно существует для среднего значения / местоположения. Или есть другие примеры, которые всегда показывают усадку до нуля?

σ

$\sigma$

— Мартин Модрак

Хребет, лассо и эластичная сеть похожи на байесовские методы с априорными центрами на нуле - см., Например, « Статистическое обучение с редкостью » Хасти, Тибширани и Уэйнрайта, раздел 2.9 Lq Penalties and Bayes Estimates: «Существует также байесовский взгляд на эти оценки. ... Это означает, что оценка Лассо является оценкой байесовского MAP (максимальная апостериорность) с использованием предварительного лапласиана ».

Один из способов ответить на ваш вопрос ( what's so special about zero?) состоит в том, что оцениваемые нами эффекты в среднем равны нулю и имеют тенденцию быть небольшими (т.е. наши априоры должны быть сосредоточены вокруг нуля). Сжатие оценок в сторону нуля является тогда оптимальным в байесовском смысле, и через эту линзу можно подумать о лассо, ребристых и эластичных сетях.

— Адриан
источник

Сжатие до нуля не является чем-то особенным (за исключением того, что уравнение проще, потому что вы просто умножаете результат на определенный коэффициент). Вы можете сжать до любой другой точки. Чем дальше эта точка от истинного значения, тем хуже производительность сжатия (но для любой точки существует некоторое сокращение, которое даст некоторое увеличение производительности ... по крайней мере для гауссовых распределенных переменных). Поэтому, когда результат, как правило, далек от нуля, тогда сокращение до нуля даст лишь очень небольшое улучшение.

— Sextus

@MartijnWeterings Безусловно, идеальное объяснение самой истины будет идеальным («бычий глаз»). Но почему сокращение до 0 все же дает некоторое улучшение? Это то, что я после.

— Кагдас Озгенц

@CowboyTrader Сокращение до любого значения дает улучшение. Вот почему это работает и для 0.

— Секст Эмпирик

@MartijnWeterings Да, но границы теории обучения почти всегда основаны на происхождении. Они помещают шар / многогранник / и т. Д. По центру в начале координат. Это просто доказательство удобства? Кодирование гипотез MDL кодирует целые числа, задавая 0 самую короткую длину кода? Это совпадение?

— Кагдас Озгенц

Допустим, вы выполняете регрессию гребня в том случае, если все переменные действительно являются частью модели (что не часто встречается на практике), тогда она не будет работать так хорошо. Возможно, это то, что Адриан имел в виду под «эффектами, равными нулю в среднем, и они, как правило, малы» (я не знаю случаев, для которых это абсолютно верно. Но в машинном обучении много случаев, когда мы кормим много параметров, а там, где многие, вероятно, не нужны, тогда большинство эффектов равны нулю или малы.)

— Sextus