Коррекция смещения во взвешенной дисперсии


22

Для невзвешенной дисперсии существует дисперсия выборки с поправкой на смещение, когда среднее значение было оценено по тем же данным: Var(X):=1

Var(Икс)знак равно1NΣя(Икся-μ)2
Var(Икс)знак равно1N-1Σя(Икся-Е[Икс])2

Я смотрю на средневзвешенную и дисперсию и задаюсь вопросом, какова подходящая поправка смещения для взвешенной дисперсии. Использование:

означать(Икс)знак равно1ΣяωяΣяωяИкся

Я использую "наивную" не исправленную дисперсию:

Var(X):=1iωiiωi(ximean(X))2

Так что мне интересно, правильный ли способ исправления смещения

A)

Var(X):=1iωi1iωi(ximean(X))2

или B)

Var(Икс)знак равноNN-11ΣяωяΣяωя(Икся-означать(Икс))2

или C)

Var(Икс)знак равноΣяωя(Σяωя)2-Σяωя2Σяωя(Икся-означать(Икс))2

А) не имеет смысла для меня, когда веса небольшие. Значение нормализации может быть 0 или даже отрицательным. Но как насчет B) ( - количество наблюдений) - это правильный подход? У вас есть ссылка, которая показывает это? Я верю "Обновление среднего и дисперсионных оценок: улучшенный метод", DHD West, 1979 использует это. В-третьих, C) - моя интерпретация ответа на этот вопрос: /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-meanN

Для C) Я только что понял, что знаменатель очень похож на . Есть ли здесь какая-то общая связь? Я думаю, что это не совсем совпадает; и, очевидно, есть связь, которую мы пытаемся вычислить дисперсию ...Var(Ω)

Все три из них, похоже, "выживают" при проверке установки всех . Так, какой я должен использовать, под каким помещением? '' Update: '' whuber предложил также выполнить проверку работоспособности с помощью и всех оставшихся крошечных. Это, кажется, исключает А и Б.ω 1 = ω 2 = .5 ω i = ϵωязнак равно1ω1знак равноω2знак равно0,5ωязнак равноε


Когда вы рассматриваете случаи, когда два самых больших веса равны, а все остальные становятся исчезающе малыми, оба (A) и (B) выпадают из раздора (потому что они не согласуются с известными результатами для ). (C) представляется приближением; Я подозреваю, что правильный фактор - намного более сложная функция весов. Nзнак равно2
whuber

@whuber ThePawn ниже предполагает, что это C. Есть ли у вас более подробные проблемы?
Аноним-Мусс

1
Решение (А) работает, я реализовал его в прошлом и могу подтвердить из эмпирических тестов, что оно дает правильные результаты. Однако вы должны использовать только целочисленные значения для весов и> 0.
gaborous

Благодарность! Это очень помогло мне встать на правильный путь, когда веса для экспоненциальной скользящей средней! Оказывается, что наивный способ вычисления дисперсии фактически переоценивает ее с постоянным коэффициентом 2, в дополнение к небольшой (1-1 / n) поправке, которая проявляется аналогично простому вычислению скользящего среднего. Это особенно сумасшедший особый случай!
saolof

Ответы:


10

Я прошел математику и закончил с вариантом C:

Вaр(Икс)знак равно(Σяωя)2(Σяωя)2-Σяωя2В¯
где - не исправленная оценка дисперсии. Формула согласуется с невзвешенным случаем, когда все идентичны. Я детализирую доказательство ниже:В¯ωя

Установив , мы получимλязнак равноωяΣяωя

В¯знак равноΣяλя(Икся-ΣJλJИксJ)2

Расширение внутреннего члена дает:

(Икся-ΣJλJИксJ)2знак равноИкся2+ΣJ,КλJλКИксJИксК-2ΣJλJИксяИксJ

Если мы возьмем ожидание, мы получим, что , член присутствует в каждом члене, он отменяется, и мы получить:Е[ИксяИксJ]знак равноВaр(Икс)1язнак равноJ+Е[Икс]2Е[Икс]

Е[В¯]знак равноВaр(Икс)Σяλя(1+ΣJλJ2-2λя)
то есть Осталось подключить выражение относительно чтобы получить вариант C.
Е[В¯]знак равноВaр(Икс)(1-ΣJλJ2)
λяωя

Это вариант C выше, не так ли?
Аноним-Мусс-Восстановить Монику

Упс, да, это вариант С.
ThePawn

Я проверил это решение эмпирически, и оно НЕ работает ... Единственное, что делает, - это решение (A), которое я также реализовал в прошлом самостоятельно, но оно работает только с весами, являющимися целыми числами и> = 0
габористическим

2
Это уравнение неверно согласно Википедии, Matlab, R и другим, которые реализуют это уравнение. Числитель здесь является квадратом, но он не должен, он должен быть таким же, как (С), предложенный ФП. См en.wikipedia.org/wiki/...
gaborous

1
@rajatkhanduja Я говорил не о доказательстве, а об окончательном производном уравнении (верхний в этом ответе). Но на самом деле это правильно, числитель просто возводится в квадрат, потому что мы умножаем на V, таким образом, числитель оказывается в квадрате. В любом случае, эта оценка остается предвзятой, как я объясняю в своем ответе ниже, поскольку она основывается на весах типа «надежность».
Габорист

7

И A, и C верны, но какой из них вы будете использовать, зависит от того, какие веса вы используете:

  • A требует, чтобы вы использовали веса типа «repeat» (целые числа, подсчитывающие количество вхождений для каждого наблюдения), и был беспристрастным .
  • C требует, чтобы вы использовали веса типа «надежность» (либо нормализованные веса, либо отклонения для каждого наблюдения), и это смещение . Это не может быть беспристрастным.

Причина, по которой С является необъективной, заключается в том, что если вы не используете веса типа «повтор», вы теряете возможность подсчитывать общее количество наблюдений (размер выборки) и, следовательно, не можете использовать поправочный коэффициент.

Для получения дополнительной информации, проверьте статью Wikipedia, которая была недавно обновлена: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.