1) Почему ущерб, нанесенный смещением, меньше по сравнению с дисперсионным усилением?
Он не должен, это просто , как правило , есть. Стоит ли компромисс, зависит от функции потерь. Но вещи, которые нас интересуют в реальной жизни, часто похожи на квадрат ошибки (например, нас больше заботит одна большая ошибка, чем две ошибки, вдвое меньшие).
В качестве контрпримера - представьте, что при поступлении в колледж мы немного снижаем баллы SAT по отношению к среднему SAT для их демографических показателей (как они определены). Если все сделано правильно, это уменьшит дисперсию и среднеквадратичную ошибку оценок (своего рода) способностей человека при введении смещения. Большинство людей ИМХО утверждают, что такой компромисс недопустим.
2) Почему это всегда работает?
3) Что такого интересного в 0 (происхождение)? Ясно, что мы можем сжать где угодно (например, оценщик Штейна), но будет ли он работать так же хорошо, как и источник?
Я думаю, что это потому, что мы обычно сжимаем коэффициенты или оценки эффекта. Есть основания полагать, что большинство эффектов невелики (см., Например , дубль Эндрю Гельмана ). Один из способов сказать, что мир, в котором все оказывает сильное влияние на все, - это жестокий непредсказуемый мир. Поскольку наш мир достаточно предсказуем, чтобы позволить нам жить долго и строить полустабильные цивилизации, из этого следует, что большинство последствий невелики.
Поскольку большинство эффектов невелики, полезно неправомерно уменьшить несколько действительно больших, а также корректно уменьшить количество незначительных эффектов.
Я считаю, что это просто свойство нашего мира, и вы, вероятно, могли бы построить самосогласованные миры, в которых сжатие нецелесообразно (скорее всего, сделав среднеквадратическую ошибку непрактичной функцией потерь). Это просто не тот мир, в котором мы живем.
С другой стороны, когда мы рассматриваем усадку в качестве предварительного распределения в байесовском анализе, существуют случаи, когда усадка до 0 активно вредна на практике.
Одним из примеров является шкала длины в гауссовых процессах (где 0 проблематично). В руководстве Стэна рекомендуется использовать априор, который устанавливает незначительный вес, близкий к нулю, т.е. эффективно «сжимая» небольшие значения от нуля. Точно так же рекомендуемые априоры для дисперсии в отрицательном биномиальном распределении эффективно уменьшаются от нуля. Наконец, что не менее важно, всякий раз, когда нормальное распределение параметризовано с точностью (как в INLA), полезно использовать обратное гамма-преобразование или другие предыдущие распределения, которые уменьшаются от нуля.
4) Почему различные универсальные схемы кодирования предпочитают меньшее количество бит вокруг источника? Эти гипотезы просто более вероятны?
Теперь это выход из моей глубины, но Википедия говорит, что в универсальной схеме кодирования мы ожидаем ( по определению ) для всех положительных так что это свойство, по-видимому, является простым следствием определения и не связано с усадкой (или я что-то упустил?)п( i ) ≥ P( я + 1 )я