Взвешенная дисперсия, еще раз

Беспристрастная взвешенная дисперсия уже рассматривалась здесь и в других местах, но, похоже, все еще существует удивительная путаница. Похоже, что существует консенсус в отношении формулы, представленной в первой ссылке, а также в статье Википедии . Это также выглядит как формула, используемая R, Mathematica и GSL (но не MATLAB). Тем не менее, статья Википедии также содержит следующую строку, которая выглядит как отличная проверка работоспособности для реализации взвешенной дисперсии:

Например, если значения {2,2,4,5,5,5} взяты из того же распределения, то мы можем рассматривать этот набор как невзвешенную выборку, или мы можем рассматривать его как взвешенную выборку {2,4, 5} с соответствующими весами {2,1,3}, и мы должны получить те же результаты.

Мои расчеты дают значение 2,1667 для дисперсии исходных значений и 2,9545 для взвешенной дисперсии. Должен ли я действительно ожидать, что они будут такими же? Почему или почему нет?

variance weighted-mean weighted-data

— confusedCoder
источник

этот вопрос на самом деле не о реализации, а о теории, лежащей в его основе

— confusedCoder

Да, вы должны ожидать, что оба примера (невзвешенные и взвешенные) дадут вам одинаковые результаты.

Я реализовал два алгоритма из статьи Википедии.

Этот работает:

$x_i$ $w_i$

$s^2\ = \frac {1} {V_1 - 1} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2,$

Однако этот (с использованием дробных весов) не работает для меня:

$x_i$ $1/w_i$ , несмещенная оценка взвешенной дисперсии населения определяется как:

$s^2\ = \frac {V_1} {V_1^2-V_2} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2$

Я все еще исследую причины, почему второе уравнение не работает, как предполагалось.

/ РЕДАКТИРОВАТЬ: нашел причину, по которой второе уравнение не сработало так, как я думал: вы можете использовать второе уравнение, только если у вас есть нормализованные веса или веса с отклонениями («надежность»), и оно НЕ беспристрастно, потому что если вы этого не сделаете При использовании «повторяющихся» весов (считая количество раз, когда наблюдение наблюдалось и, следовательно, должно повторяться в ваших математических операциях), вы теряете способность подсчитывать общее количество наблюдений, и, следовательно, вы не можете использовать поправочный коэффициент.

Таким образом, это объясняет разницу в ваших результатах, используя взвешенную и невзвешенную дисперсию: ваши вычисления смещены.

Таким образом, если вы хотите иметь несмещенную взвешенную дисперсию, используйте только «повторные» веса и используйте первое уравнение, которое я опубликовал выше. Если это невозможно, ну, вы не можете с этим поделать.

Я также обновил статью в Википедии, если вы хотите больше информации: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

И связанная статья о несмещенной взвешенной ковариации (которая фактически является той же самой дисперсией из-за идентичности поляризации ): правильное уравнение для взвешенной несмещенной выборочной ковариации

— gaborous
источник

После прочтения и обдумывания этого я все еще не понимаю интуитивного значения или примера термина «вес надежности». Не могли бы вы рассказать об этом подробнее?

— Питер

@ Вес надежности Петра - это нормализованные веса, например, ограниченные между 0 и 1 или -1 и 1. Они представляют частоту (например, 0,1 означает, что этот образец был просмотрен в 10% случаев по сравнению со всеми другими образцами). Я не придумал этот термин, его можно найти в публикациях. Для повторяющихся весов это наоборот, каждый вес представляет количество случаев, количество элементов (например, 10, если образец наблюдался 10 раз).

— gaborous

Это сбивает с толку, потому что то, что вы называете весами повторения, часто также называют весами частот , но я думаю, что я понял разницу. Это зависит от нормализации, верно?

— Питер

Нет, весовые коэффициенты - это альтернативное название для весовых коэффициентов надежности. Для повторяющихся весов это количество совпадений, а не частота. С повторными весами нормализация вообще отсутствует, вот в чем суть: пока вы нормализуете свои веса, вы теряете базовую частоту, поэтому вы не можете полностью расстроить ваши вычисления. Единственный способ - сохранить общее количество случаев. Если вы действительно хотите использовать весовые коэффициенты частоты, я думаю, что если вы заранее сохраните общее число N случаев, вы можете преобразовать взад и вперед в повторяющиеся весовые коэффициенты, умножив весовые коэффициенты на N, то это нормально.

— Габорист

И если ваши веса 1 / дисперсии, как бы вы их назвали? Это будет "вес надежности" тогда?

— Том Венселерс