Оценщик Джеймса-Стейна с неравными отклонениями


11

Каждое утверждение, которое я нахожу относительно оценки Джеймса-Стейна, предполагает, что оцениваемые случайные переменные имеют одинаковую (и единичную) дисперсию.

Но во всех этих примерах также упоминается, что оценка JS может использоваться для оценки величин, не имеющих ничего общего друг с другом. Пример википедии является скорость света, потребление чая в Тайване, и вес свиней в штате Монтана. Но, вероятно, ваши измерения по этим трем величинам будут иметь разные «истинные» отклонения. Это представляет проблему?

Это связано с большей концептуальной проблемой, которую я не понимаю, связанной с этим вопросом: оценка Джеймса-Стейна: как Эфрон и Моррис рассчитали в коэффициенте усадки для своего примера бейсбола? σ2Мы рассчитываем коэффициент усадки следующим образом:c

c=1(k3)σ2(yy¯)2

Интуитивно я думаю, что член самом деле σ 2 i - различный для каждой оцениваемой величины. Но обсуждение в этом вопросе говорит только об использовании объединенной дисперсии ...σ2σi2

Я был бы очень признателен, если бы кто-нибудь смог разобраться в этой путанице!


3
D=diag(σ12,,σn2)D1/2DmiDD^D^1/2
парень

2
@guy: это разумное предложение (+1), однако это приведет к одному и тому же коэффициенту усадки для всех переменных, тогда как можно было бы уменьшить переменные по-разному, в зависимости от их дисперсии / неопределенности. Смотрите ответ, который я только что опубликовал.
говорит амеба: восстанови Монику

1
@amoeba Конечно; Я не предполагал, что моя оценка была практичной, только то, что она иллюстрировала, почему люди говорят то, что ОП упомянул во втором абзаце.
парень

Ответы:


6

На этот вопрос явным образом ответили в классической серии работ по оценке Джеймса-Стейна в эмпирическом байесовском контексте, написанной в 1970-х годах Efron & Morris. Я в основном имею в виду:

  1. Эфрон и Моррис, 1973, Правило оценки Штейна и его конкуренты - эмпирический байесовский подход

  2. Эфрон и Моррис, 1975, анализ данных с оценкой Штейна и ее обобщения

  3. Эфрон и Моррис, 1977, парадокс Штейна в статистике

c

Тем не менее, они приводят еще один пример, который оценивает уровень токсоплазмоза в ряде городов Сальвадора. В каждом городе было опрошено разное количество людей, поэтому можно думать, что индивидуальные наблюдения (уровень токсоплазмоза в каждом городе) имеют разные отклонения (чем меньше число опрошенных, тем выше отклонение). Интуиция, безусловно, заключается в том, что точки данных с низкой дисперсией (низкой неопределенностью) не нужно сокращать так сильно, как точки данных с высокой дисперсией (высокой неопределенностью). Результат их анализа показан на следующем рисунке, где это действительно можно увидеть:

введите описание изображения здесь

Те же данные и анализ представлены также в гораздо более техническом документе 1975 года, в гораздо более элегантной форме (хотя, к сожалению, не показаны отдельные отклонения), см. Раздел 3:

введите описание изображения здесь

Xi|θiN(θi,Di)θiN(0,A)
ADi=11/(1+A)(k2)/Xj2θi
θ^i=(111+A)Xi=(1k2Xj2)Xi,

Di1

θ^i=(1DiDi+A)Xi
AA^

DjA^ik

Соответствующий раздел в статье 1973 года - это Раздел 8, и он немного сложнее. Интересно, что у них есть явный комментарий на предложение, сделанное @guy в комментариях выше:

x~i=Di1/2xi,θ~i=Di1/2θix~iN(θ~i,1)θi

θ^i=(1k2[Xj2/Dj])Xi.
Xi

A^i

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.