Как «сложить» стандартное отклонение?


68

У меня есть среднемесячное значение и стандартное отклонение, соответствующее этому среднему. Сейчас я вычисляю среднегодовое значение как сумму среднемесячных значений, как я могу представить стандартное отклонение для суммированного среднего значения?

Например, учитывая выход из ветровой электростанции:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Можно сказать, что в среднем году ветроэлектростанция производит 10 358 МВтч, но каково стандартное отклонение, соответствующее этой цифре?


3
Обсуждение после удаленного в настоящее время ответа выявило возможную двусмысленность в этом вопросе: ищите ли вы SD среднемесячных значений или хотите восстановить SD всех исходных значений, из которых были построены эти средние значения? В этом ответе также правильно указано, что если вы хотите последнее, вам понадобится число значений, включенных в каждое из среднемесячных значений.
whuber

1
В комментарии к другому удаленному ответу отмечалось, что странно вычислять среднее значение как сумму : вы, конечно, имеете в виду, что вы усредняете среднемесячные значения. Но если вам нужно оценить среднее значение всех исходных данных, то такая процедура обычно не является хорошей: требуется взвешенное среднее. И, конечно, невозможно дать хороший ответ на ваш вопрос о «SD для суммированного среднего», пока не станет ясно, что такое «суммированное среднее» и что оно должно представлять. Пожалуйста, уточните это для нас.
whuber

@whuber Я добавил пример, чтобы уточнить. Математически я считаю, что сумма средних значений равна среднемесячным значениям времени 12.
Клонк

2
Да, клонк, это очень разумная просьба. Однако эти ответы были удалены их владельцем, а не сообществом. Чтобы сохранить их ценность, я попытался здесь изложить (мои взгляды) ключевые идеи, возникающие в этих ответах и ​​их комментариях. Кстати, ваши недавние изменения весьма полезны: людям нравится видеть пример данных.
whuber

1
Добро пожаловать на сайт, @Hayden. Это не ответ на вопрос ОП. Пожалуйста, используйте только поле «Ваш ответ», чтобы предоставить ответы. Если у вас есть дополнительный вопрос, нажмите [ASK QUESTION]вверху и задайте его там, и мы поможем вам должным образом. Поскольку вы новичок здесь, вы можете принять участие в нашем туре , который содержит информацию для новых пользователей.
gung - Восстановить Монику

Ответы:


66

Краткий ответ: Вы усредняете отклонения ; затем вы можете взять квадратный корень, чтобы получить среднее стандартное отклонение .


пример

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

И тогда среднее стандартное отклонение составляетsqrt(53,964) = 232


Из суммы нормально распределенных случайных величин :

Если и являются независимыми случайными величинами, которые обычно распределены (и, следовательно, также совместно), то их сумма также нормально распределенаXY

... сумма двух независимых нормально распределенных случайных величин является нормальной, при этом ее среднее значение является суммой двух средних, а его дисперсия является суммой двух дисперсий

И из нормального распределения суммы Wolfram Alpha :

Удивительно, что распределение суммы двух нормально распределенных независимых переменных и со средними и дисперсиями и соответственно является другим нормальным распределениемXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

что имеет значение

μX+Y=μX+μY

и дисперсия

σX+Y2=σX2+σY2

Для ваших данных:

  • сумма: 10,358 MWh
  • разница: 647,564
  • среднеквадратичное отклонение: 804.71 ( sqrt(647564) )

введите описание изображения здесь

Итак, чтобы ответить на ваш вопрос:

  • Как «сложить» стандартное отклонение ?
  • Вы суммируете их квадратично:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Концептуально вы суммируете отклонения, а затем берете квадратный корень, чтобы получить стандартное отклонение.


Потому что я был любопытным, я хотел бы знать , среднемесячную среднюю мощность, а его стандартное отклонение . Через индукцию нам нужно 12 нормальных распределений, которые:

  • сумма в среднем 10,358
  • сумма до дисперсии 647,564

Это будет 12 среднемесячных распределений:

  • среднее из 10,358/12 = 863.16
  • дисперсия 647,564/12 = 53,963.6
  • стандартное отклонение sqrt(53963.6) = 232.3

введите описание изображения здесь

Мы можем проверить наши среднемесячные распределения, сложив их 12 раз, чтобы убедиться, что они равны годовому распределению:

  • Имею ввиду: 863.16*12 = 10358 = 10,358( правильно )
  • Дисперсия: 53963.6*12 = 647564 = 647,564( правильно )

Примечание : я оставлю это кому-то со знанием эзотерической латексной математики, чтобы преобразовать мои изображения формул и formula codeв форматы стека обмена.

Изменить : я переместил короткую, в точку, ответить наверх. Потому что я должен был сделать это еще раз сегодня, но хотел перепроверить , что я в среднем на отклонения .


3
Похоже, что все это предполагает, что месяцы не коррелированы - вы высказали это предположение где-нибудь явно? Кроме того, зачем нам вносить нормальное распределение? Если мы говорим только о дисперсии, то это кажется ненужным - например, посмотрите мой ответ здесь
Макрос

1
@Marco Потому что я думаю, лучше в картинках, и это делает все проще для понимания.
Ян Бойд

2
@Marco Кроме того, я считаю, что этот вопрос возник на сайте (теперь уже не существующем) stats.stackexchange. Стенка формул являются менее доступной , чем более простыми, графическими, менее строгими процедуры.
Йен Бойд,

2
Я сомневаюсь, что это правильно. Представьте себе два набора данных, каждый из которых содержит только одно измерение. Их дисперсия каждого набора равна 0, но набор обоих измерений имеет дисперсию больше 0, если точки данных различаются.
Njol

1
@ Njol, я думаю, поэтому мы предполагаем, что все переменные имеют нормальное распределение. И мы можем сделать это здесь, потому что мы говорим о физическом измерении. В вашем примере обе переменные обычно не распределены.
tworec

11

Это старый вопрос, но принятый ответ на самом деле не является правильным или полным. Пользователь хочет рассчитать стандартное отклонение за 12-месячные данные, где среднее значение и стандартное отклонение уже рассчитаны за каждый месяц. Предполагая, что количество выборок в каждом месяце одинаково, можно рассчитать среднее значение выборки и дисперсию за год по данным каждого месяца. Для простоты предположим, что у нас есть два набора данных:

X={x1,....xN}

Y={y1,....,yN}

с известными значениями среднего значения выборки и выборочной дисперсии, , , , .μxμyσx2σy2

Теперь мы хотим рассчитать те же оценки для

Z={x1,....,xN,y1,...,yN} .

Учтите, что , рассчитываются как:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Чтобы оценить среднее значение и дисперсию по всему набору, нам нужно рассчитать:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 что указано в принятом ответе. Для дисперсии, однако, история другая:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Таким образом, если у вас есть дисперсия по каждому подмножеству, и вы хотите дисперсию по всему подмножеству, то вы можете усреднить дисперсии каждого подмножества, если все они имеют одинаковое среднее значение. В противном случае вам нужно добавить среднюю дисперсию каждого подмножества.

Скажем, в течение первой половины года мы производим ровно 1000 МВтч в день, а во второй половине - 2000 МВтч в день. Тогда среднее значение и дисперсия производства энергии в первой и второй половине равны 1000 и 2000 для среднего значения, а дисперсия равна 0 для обеих половин. Теперь есть две разные вещи, которые могут нас заинтересовать:

1- Мы хотим рассчитать дисперсию производства энергии за весь год : затем, усредняя две дисперсии, мы получим ноль, что неверно, поскольку энергия в день в течение всего года не является постоянной. В этом случае нам нужно добавить дисперсию всех средств из каждого подмножества. Математически в этом случае интересующей нас случайной величиной является производство энергии в день. У нас есть выборочная статистика по подмножествам, и мы хотим рассчитать выборочную статистику за более длительное время.

2- Мы хотим рассчитать дисперсию производства энергии в год: Другими словами, нас интересует, как сильно меняется производство энергии от года к году. В этом случае усреднение дисперсии приводит к правильному ответу, который равен 0, поскольку в каждом году мы производим в среднем ровно 1500 МВт. Математически в этом случае интересующей случайной величиной является среднее значение выработки энергии за день, где усреднение производится за весь год.


1

Я полагаю, что вас действительно может заинтересовать стандартная ошибка, а не стандартное отклонение.

Стандартная ошибка среднего значения (SEM) - это стандартное отклонение оценки среднего значения выборки для среднего значения по населению, и это даст вам оценку того, насколько хороша ваша годовая оценка МВтч.

Это очень легко вычислить: если вы использовали выборок для получения ваших среднемесячных значений MWh и стандартных отклонений, вы просто вычислили бы стандартное отклонение, как предложило @IanBoyd, и нормализовали его по общему размеру вашей выборки. То естьs = n

s=s12+s22++s12212×n

1

Я хотел бы еще раз подчеркнуть неправильность в части принятого ответа. Формулировка вопроса приводит к путанице.

В вопросе есть Average и StdDev каждого месяца, но неясно, какое подмножество используется. Это среднее значение для одной ветряной турбины всей фермы или среднесуточное значение для всей фермы? Если это среднесуточное значение за каждый месяц, вы не можете сложить среднемесячное значение, чтобы получить среднегодовое значение, поскольку они не имеют одинакового знаменателя. Если это среднее значение за единицу, вопрос должен

Можно сказать, что в среднем за год каждая турбина в ветропарке производит 10 358 МВтч, ...

Вместо

Можно сказать, что в среднем за год ветроэлектростанция производит 10 358 МВтч, ...

Более того, стандартное отклонение или дисперсия - это сравнение с собственным средним значением набора. Он не содержит никакой информации относительно среднего значения всего набора.

Пример отклонения

Изображение не обязательно очень правильное, но оно передает общую идею. Давайте представим выход 1 ветровой электростанции, как на картинке. Как вы можете видеть, «локальная» дисперсия не имеет ничего общего с «глобальной» дисперсией, независимо от того, как вы ее добавляете или умножаете. Вы не можете предсказать дисперсию года, используя дисперсию 2 полугодия. Таким образом, в принятом ответе, хотя подсчет суммы верен, деление на 12 для получения месячного числа ничего не значит. , Из трех разделов первый и последний раздел неверны, второй - правильно.

Опять же, это очень неправильное приложение, пожалуйста, не следуйте ему, иначе это может привести к неприятностям. Просто рассчитанный для всего этого, используя общий годовой / месячный выход каждой единицы в качестве точек данных, в зависимости от того, хотите ли вы годовой или месячный номер, это должен быть правильный ответ. Вы, вероятно, хотите что-то подобное. Это мои случайно сгенерированные числа. Если у вас есть данные, ответом будет ячейка O2.

введите описание изображения здесь


Большое спасибо за изображение, которое мне очень помогло понять, почему принятый ответ неполон и может даже ошибаться. Вы объяснили это очень хорошо, спасибо!
Кей

Это показывает опасность голосования. Люди, которые голосуют - это люди, которые не знают ответа. В отличие от кодирования, люди, которые голосуют, - это люди, которые работают с кодом, чем больше голосов, тем лучше ответ. Для статистики / математики, больше голосов только означает, что это более привлекательно.
Там Ле
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.