Можно ли найти комбинированное стандартное отклонение?


32

Предположим, у меня есть 2 комплекта:

Набор A : количество элементов , ,n=10μ=2.4σ=0.8

Набор B : количество элементов , ,n=5μ=2σ=1.2

Я могу легко найти комбинированное среднее ( ), но как мне найти комбинированное стандартное отклонение?μ


Ответы:


30

Итак, если вы просто хотите объединить два из этих образцов в один:

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

где и - примерные значения, а и - типовые стандартные отклонения.y¯1y¯2s1s2

Чтобы добавить их у вас есть:

s=1n1+n2Σi=1n1+n2(ziy¯)2

что не так просто, так как новое среднее значение отличается от и :y¯y¯1y¯2

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

Окончательная формула:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

Для обычно используемой версии стандартного отклонения с поправкой по Бесселю (" denominator") результаты для средних значений такие же, как и раньше, ноn1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Вы можете прочитать больше информации здесь: http://en.wikipedia.org/wiki/Standard_deviation


1
Если ОП использует исправленную по Бесселю ( знаменатель для дисперсии) версию выборочного стандартного отклонения (как будет делать почти каждый, кто спрашивает здесь), этот ответ не совсем даст им то, что они ищут. n1
Glen_b

В этом случае этот раздел делает свое дело. (изменить ссылку на старую версию Википедии, поскольку она удалена из новой)
Glen_b

@Glen_b Хороший улов. Можете ли вы отредактировать это в ответ, чтобы сделать его более полезным тогда?
sashkello

Я пошел в Википедию, чтобы найти доказательства, но, к сожалению, этой формулы больше нет. Хотите разработать (доказательство) или улучшить Википедию? :)
Рауни


8

Это очевидно распространяется на групп:K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1

7
Это немного кратко по нашим стандартам. Не могли бы вы рассказать немного больше о том, как это происходит и почему это правильный ответ?
Sycorax сообщает, что восстановит Монику

1

У меня была та же проблема: имея стандартное отклонение, средние и размеры нескольких подмножеств с пустым пересечением, вычислим стандартное отклонение объединения этих подмножеств.

Мне нравится ответ sashkello и Glen_b ♦ , но я хотел найти подтверждение этому. Я сделал это таким образом, и я оставляю это здесь на случай, если это кому-нибудь поможет.


Таким образом, цель состоит в том, чтобы увидеть, что действительно:

s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

Шаг за шагом:

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

Теперь уловка состоит в том, чтобы понять, что мы можем изменить порядок сумм: поскольку каждый термин появляется раз, мы можем написать числитель как

2y¯j=1n1xjn1
n1
i=1n1(xi2+y¯22y¯xi),

и, следовательно, продолжая цепочку равенства:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

Это было сказано, вероятно, есть более простой способ сделать это.

Формула может быть расширена до подмножеств, как указано ранее. Доказательством будет индукция по числу множеств. Базовый случай уже доказан, и для этапа индукции вы должны применить аналогичную цепочку равенства к последнему.k


Я не вижу, как вопрос ясен. Предполагается, что два набора данных поступают из одного и того же распределения? Имеются ли в ОП фактические наблюдения или только выборочные оценки среднего и стандартного отклонения?
Майкл Р. Черник

Да, предполагается, что они пришли из одного и того же дистрибутива. Наблюдения недоступны, только среднее значение и стандартное отклонение подмножеств.
апреля

Тогда зачем использовать формулу, которая включает в себя отдельные наблюдения?
Майкл Р. Черник

Может быть, мой ответ не ясен. Я просто публикую математическое доказательство приведенной выше формулы, которое позволяет вычислять sиз стандартных отклонений, средних и размеров двух подмножеств. В формуле нет ссылки на отдельные наблюдения. В доказательстве есть, но это только доказательство, и, с моей точки зрения, правильное.
мая
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.