Рассмотрим следующие три явления.
Парадокс Штейна: учитывая некоторые данные из многомерного нормального распределения в , среднее значение выборки не очень хорошая оценка истинного среднего. Можно получить оценку с меньшей среднеквадратичной ошибкой, если уменьшить все координаты среднего значения выборки до нуля [или в сторону их среднего значения, или фактически до любого значения, если я правильно понимаю].
NB: обычно парадокс Штейна формулируется через рассмотрение только одной единственной точки данных из ; Пожалуйста, поправьте меня, если это важно, и моя формулировка выше не верна.
Регрессия гребня: учитывая некоторую зависимую переменную и некоторые независимые переменные , стандартная регрессия имеет тенденцию перекрывать данные и приводить к плохой производительности вне выборки. Часто можно уменьшить переоснащение, уменьшив до нуля: .
Случайные эффекты в многоуровневых / смешанных моделях: учитывая некоторую зависимую переменную (например, рост учащегося), которая зависит от некоторых категориальных предикторов (например, идентификатор школы и пол учащегося), часто рекомендуется рассматривать некоторые предикторы как «случайные», то есть предположить, что средний рост ученика в каждой школе зависит от нормального распределения. Это приводит к сокращению оценок среднего роста в расчете на школу до глобального среднего.
У меня есть ощущение, что все это различные аспекты одного и того же феномена «усадки», но я не уверен и, конечно, не обладаю хорошей интуицией в этом. Итак, мой главный вопрос: действительно ли существует глубокое сходство между этими тремя вещами, или это только поверхностное подобие? Какова общая тема здесь? Какова правильная интуиция об этом?
Кроме того, вот некоторые кусочки этой головоломки, которые мне не очень подходят:
В регрессии гребня не сокращается равномерно; Сжатие гребня на самом деле связано с разложением по сингулярному значению , причем направления с малой дисперсией больше сжимаются (см., например, Элементы статистического обучения 3.4.1). Но оценка Джеймса-Стейна просто берет среднее значение выборки и умножает его на один коэффициент масштабирования. Как это сочетается?
Обновление: см. Оценщик Джеймса-Стейна с неравными дисперсиями и, например, здесь относительно дисперсий коэффициентов.
Среднее значение выборки является оптимальным для измерений ниже 3. Означает ли это, что когда в регрессионной модели имеется только один или два предиктора, регрессия гребня всегда будет хуже, чем обычные наименьшие квадраты? На самом деле, если подумать, я не могу представить себе ситуацию в 1D (т.е. простой, не множественной регрессии), где усадка гребня была бы полезной ...
Обновление: Нет. См. При каких условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?
С другой стороны, среднее значение выборки всегда неоптимально в измерениях выше 3. Означает ли это, что при наличии более 3 предикторов регрессия гребня всегда лучше, чем OLS, даже если все предикторы некоррелированы (ортогональны)? Обычно регрессия гребня обусловлена мультиколлинеарностью и необходимостью «стабилизировать» член .
Обновление: да! Смотрите ту же ветку, что и выше.
Часто возникают острые дискуссии о том, следует ли включать различные факторы в ANOVA в качестве фиксированных или случайных эффектов. Разве мы не должны, по одной и той же логике, всегда рассматривать фактор как случайный, если он имеет более двух уровней (или если существует более двух факторов? Теперь я в замешательстве)?
Обновление: ?
Обновление: я получил несколько отличных ответов, но ни один из них не дает достаточно полной картины, поэтому я позволю вопросу «открыться». Я могу пообещать присудить награду не менее 100 баллов за новый ответ, который превзойдет существующие. Я в основном ищу объединяющую точку зрения, которая могла бы объяснить, как общее явление усадки проявляется в этих различных контекстах, и указать на принципиальные различия между ними.