Что означает объединенная дисперсия «на самом деле»?


15

Я новичок в статистике, так что вы, ребята, не могли бы вы мне помочь?

Мой вопрос заключается в следующем: что на самом деле означает объединенная дисперсия ?

Когда я ищу формулу для объединенной дисперсии в Интернете, я нахожу много литературы, использующей следующую формулу (например, здесь: http://math.tntech.edu/ISR/Maturgical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Но что это на самом деле рассчитывает? Потому что, когда я использую эту формулу для вычисления моей объединенной дисперсии, это дает мне неправильный ответ.

Например, рассмотрим эти «родительские образцы»:

2,2,2,2,2,8,8,8,8,8

Дисперсия этой родительской выборки равна Sp2=10 , а ее среднее значение равно x¯p=5 .

Теперь предположим, что я разбил этот родительский образец на два подэлемента:

  1. Первый суб-образец 2,2,2,2,2 со средним x¯1=2 и дисперсия S12=0 .
  2. Второй подвыбор составляет 8,8,8,8,8 со средним значением и дисперсией S 2 2 = 0 .x¯2=8S22=0

Теперь ясно, что с помощью приведенной выше формулы для вычисления дисперсии пула / родителя этих двух подвыборок будет получено ноль, поскольку и S 2 = 0 . Так что же на самом деле рассчитывает эта формула ?S1=0S2=0

С другой стороны, после некоторого длительного вывода я нашел формулу, которая дает правильную дисперсию пула / родителя:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

В приведенной выше формуле, и д 2 = ¯ х 2 - ˉ х р .d1=x1¯x¯pd2=x2¯x¯p

Я нашел похожую формулу с моей, например, здесь: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, а также в Википедии. Хотя я должен признать, что они не похожи на мои.

Итак, еще раз, что на самом деле означает объединенная дисперсия? Разве это не должно означать отклонение родительской выборки от двух подвыборок? Или я тут совершенно не прав?

Заранее спасибо.


РЕДАКТИРОВАТЬ 1: Кто-то говорит, что мои два подвыборки выше патологические, так как они имеют нулевую дисперсию. Ну, я мог бы привести другой пример. Рассмотрим этот родительский образец:

1,2,3,4,5,46,47,48,49,50

Дисперсия этой родительской выборки составляет , а ее среднее значение равно ˉ x p = 25,5 .Sp2=564.7x¯p=25.5

Теперь предположим, что я разбил этот родительский образец на два подэлемента:

  1. Первый подвыбор составляет 1,2,3,4,5 со средним значением и дисперсией S 2 1 = 2,5 .x¯1=3S12=2.5
  2. Второй суб-образец 46,47,48,49,50 со средним и дисперсия S 2 2 = 2,5 .x¯2=48S22=2.5

Теперь, если вы используете «формулу литературы» для вычисления объединенной дисперсии, вы получите 2,5, что совершенно неверно, потому что родительская / объединенная дисперсия должна быть 564,7. Вместо этого, если вы используете «мою формулу», вы получите правильный ответ.

Пожалуйста, поймите, я использую здесь крайние примеры, чтобы показать людям, что формула действительно неверна. Если я использую «нормальные данные», которые не имеют большого количества вариаций (крайних случаев), то результаты этих двух формул будут очень похожи, и люди могут отклонить разницу из-за ошибки округления, а не потому, что сама формула неправильно.


Некоторые связанные ссылки, чтобы помочь: stats.stackexchange.com/q/214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q/43159/3277 .
ttnphns

Ответы:


13

Проще говоря, объединенная дисперсия является (несмещенной) оценкой дисперсии в каждой выборке при условии / ограничении, что эти дисперсии равны.

Это объяснено, мотивировано и проанализировано более подробно в статье в Википедии для объединенной дисперсии .

Он не оценивает дисперсию нового «мета-сэмпла», сформированного путем объединения двух отдельных сэмплов, как вы и предполагали. Как вы уже обнаружили, оценка этого требует совершенно другой формулы.


Предположение о «равенстве» (то есть, то же население поняли эти образцы) не нужно вообще определить , что это - «объединяют». Пул просто означает усредненный, омнибус (см. Мой комментарий к Тиму).
ttnphns

@ttnphns Я думаю, что предположение о равенстве необходимо для придания объединенной дисперсии концептуального значения (о котором просил ОП), которое выходит за рамки простого словесного описания математической операции, которую она выполняет над образцами дисперсий. Если дисперсии населения не предполагаются равными, тогда неясно, что мы можем считать объединенной дисперсией оценкой. Конечно, мы могли бы просто думать об этом как об объединении двух различий и оставить это в покое, но это вряд ли поучительно в отсутствие какой-либо мотивации к желанию объединить отклонения в первую очередь.
Джейк Уэстфолл

Джейк, я не согласен с этим, учитывая конкретный вопрос ОП, но я хотел поговорить об определении слова «объединенный», поэтому я сказал «в целом».
ttnphns

@JakeWestfall Ваш ответ пока самый лучший. Спасибо. Хотя мне до сих пор не ясно одно. Согласно Википедии, объединенная дисперсия - это метод оценки дисперсии нескольких разных популяций, когда среднее значение для каждой популяции может быть разным , но можно предположить, что дисперсия каждой популяции одинакова .
Hanciong

@JakeWestfall: Итак, если мы рассчитываем объединенную дисперсию для двух разных групп населения разными способами, что она на самом деле рассчитывает? Потому что первая дисперсия измеряет изменение относительно первого среднего, а вторая дисперсия - относительно второго среднего. Я не знаю, какую дополнительную информацию можно получить из ее расчета.
Hanciong

10

Объединенная дисперсия используется для объединения дисперсий из разных выборок путем взятия их средневзвешенного значения, чтобы получить «общую» дисперсию. Проблема с вашим примером состоит в том, что это патологический случай, так как каждый из подвыборок имеет дисперсию, равную нулю. Такой патологический случай имеет очень мало общего с данными, с которыми мы обычно сталкиваемся, так как всегда есть некоторая изменчивость, и если нет никакой изменчивости, мы не заботимся о таких переменных, так как они не несут информации. Следует заметить, что это очень простой метод, и существуют более сложные способы оценки отклонений в иерархических структурах данных, которые не подвержены таким проблемам.

Что касается вашего примера в редактировании, он показывает, что важно четко изложить свои предположения перед началом анализа. Допустим, у вас есть точек данных в k группах, мы будем обозначать их как x 1 , 1 , x 2 , 1 , , x n - 1 , k , x n , k , где i-й индекс в x i , j обозначает случаи и jnkx1,1,x2,1,,xn1,k,xn,kixi,jj-й индекс обозначает групповые индексы. Возможны несколько сценариев, вы можете предположить, что все точки происходят из одного и того же распределения (для простоты, давайте предположим, нормальное распределение),

(1)xi,jN(μ,σ2)

Вы можете предположить, что каждый из подвыборок имеет свое среднее значение.

(2)xi,jN(μj,σ2)

или, его собственная разница

(3)xi,jN(μ,σj2)

или каждый из них имеет свои собственные, отличные параметры

(4)xi,jN(μj,σj2)

В зависимости от ваших предположений, конкретный метод может или не может быть адекватным для анализа данных.

В первом случае вам не будет интересно оценивать внутригрупповые отклонения, поскольку вы предполагаете, что все они одинаковы. Тем не менее, если вы агрегируете глобальную дисперсию из групповых дисперсий, вы получите тот же результат, что и при использовании объединенной дисперсии, поскольку определение дисперсии

Var(X)=1n1i(xiμ)2

n1n1+n21 .

Во втором случае средства отличаются, но у вас есть общая разница. Этот пример наиболее близок к вашему примеру в редактировании. В этом случае объединенная дисперсия правильно оценивать глобальную дисперсию, в то время как при оценке дисперсии по всему набору данных вы получите неверные результаты, поскольку вы не учитываете тот факт, что группы имеют разные средства.

В третьем случае не имеет смысла оценивать «глобальную» дисперсию, поскольку вы предполагаете, что каждая из групп имеет свою собственную дисперсию. Возможно, вы по-прежнему заинтересованы в получении оценки для всей совокупности, но в таком случае как (а) расчет отдельных отклонений для группы, так и (б) расчет глобальной дисперсии из всего набора данных могут привести к вводящим в заблуждение результатам . Если вы имеете дело с данными такого рода, вам следует подумать об использовании более сложной модели, которая учитывает иерархическую природу данных.

Четвертый случай - самый экстремальный и очень похож на предыдущий. В этом сценарии, если вы хотите оценить среднее значение и дисперсию, вам потребуется другая модель и другой набор предположений. В таком случае вы бы предположили, что ваши данные имеют иерархическую структуру, и помимо средних значений и различий внутри группы, существует общая дисперсия более высокого уровня, например, если предположить следующую модель

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

where each sample has its own means and variances μj,σj2 that are themselves draws from common distributions. In such case, you would use a hierarchical model that takes into consideration both the lower-level and upper-level variability. To read more about this kind of models, you can check the Bayesian Data Analysis book by Gelman et al. and their eight schools example. This is however much more complicated model then the simple pooled variance estimator.


I have updated my question with different example. In this case, the answer from "literature's formula" is still wrong. I understand that we are usually dealing with "normal data" where there is no extreme case like my example above. However, as mathematicians, shouldn't you care about which formula is indeed correct, instead of which formula applies in "everyday/common problem"? If some formula is fundamentally wrong, it should be discarded, especially if there is another formula which holds in all cases, pathological or not.
Hanciong

Btw you said there are more complicated ways of estimating variance. Could you show me these ways? Thank you
Hanciong

2
Tim, pooled variance is not the total variance of the "combined sample". In statistics, "pooled" means weighted averaged (when we speak of averaged quantities such as variances, weights being the n's) or just summed (when we speak of sums such as scatters, sums-of-squares). Please, reconsider your terminology (choice of words) in the answer.
ttnphns

1
Albeit off the current topic, here is an interesting question about "common" variance concept. stats.stackexchange.com/q/208175/3277
ttnphns

1
Hanciong. I insist that "pooled" in general and even specifically "pooled variance" concept does not need, in general, any assumption such as: groups came from populations with equal variances. Pooling is simply blending (weighted averaging or summing). It is in ANOVA and similar circumstances that we do add that statistical assumption.
ttnphns

1

The problem is if you just concatenate the samples and estimate its variance you're assuming they're from the same distribution therefore have the same mean. But we are in general interested in several samples with different mean. Does this make sense?


0

The use-case of pooled variance is when you have two samples from distributions that:

  • may have different means, but
  • which you expect to have an equal true variance.

An example of this is a situation where you measure the length of Alice's nose n times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.

In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.


Thank you for your answer, but I still don't understand about one thing. The first data gives you the variance with respect to Alice's nose length, and the second data gives you the variance with respect to Bob's nose length. If you are calculating a pooled variance from those data, what does it mean actually? Because the first variance is measuring the variation with respect to Alice's, and the second with respect to Bob's, so what additional information can we gained by calculating their pooled variance? They are completely different numbers.
Hanciong

0

Through pooled variance we are not trying to estimate the variance of a bigger sample, using smaller samples. Hence, the two examples you gave don't exactly refer to the question.

Pooled variance is required to get a better estimate of population variance, from two samples that have been randomly taken from that population and come up with different variance estimates.

Example, you are trying to gauge variance in the smoking habits of males in London. You sample two times, 300 males from London. You end up getting two variances (probably a bit different!). Now since, you did a fair random sampling (best to your capability! as true random sampling is almost impossible), you have all the rights to say that both the variances are true point estimates of population variance (London males in this case).

But how is that possible? i.e. two different point estimates!! Thus, we go ahead and find a common point estimate which is pooled variance. It is nothing but weighted average of two point estimates, where the weights are the degree of freedom associated with each sample.

Hope this clarifies.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.