Это старый вопрос, но принятый ответ на самом деле не является правильным или полным. Пользователь хочет рассчитать стандартное отклонение за 12-месячные данные, где среднее значение и стандартное отклонение уже рассчитаны за каждый месяц. Предполагая, что количество выборок в каждом месяце одинаково, можно рассчитать среднее значение выборки и дисперсию за год по данным каждого месяца. Для простоты предположим, что у нас есть два набора данных:
X={x1,....xN}
Y={y1,....,yN}
с известными значениями среднего значения выборки и выборочной дисперсии, , , , .μxμyσ2xσ2y
Теперь мы хотим рассчитать те же оценки для
Z={x1,....,xN,y1,...,yN} .
Учтите, что , рассчитываются как:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Чтобы оценить среднее значение и дисперсию по всему набору, нам нужно рассчитать:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
что указано в принятом ответе. Для дисперсии, однако, история другая:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Таким образом, если у вас есть дисперсия по каждому подмножеству, и вы хотите дисперсию по всему подмножеству, то вы можете усреднить дисперсии каждого подмножества, если все они имеют одинаковое среднее значение. В противном случае вам нужно добавить среднюю дисперсию каждого подмножества.
Скажем, в течение первой половины года мы производим ровно 1000 МВтч в день, а во второй половине - 2000 МВтч в день. Тогда среднее значение и дисперсия производства энергии в первой и второй половине равны 1000 и 2000 для среднего значения, а дисперсия равна 0 для обеих половин. Теперь есть две разные вещи, которые могут нас заинтересовать:
1- Мы хотим рассчитать дисперсию производства энергии за весь год : затем, усредняя две дисперсии, мы получим ноль, что неверно, поскольку энергия в день в течение всего года не является постоянной. В этом случае нам нужно добавить дисперсию всех средств из каждого подмножества. Математически в этом случае интересующей нас случайной величиной является производство энергии в день. У нас есть выборочная статистика по подмножествам, и мы хотим рассчитать выборочную статистику за более длительное время.
2- Мы хотим рассчитать дисперсию производства энергии в год: Другими словами, нас интересует, как сильно меняется производство энергии от года к году. В этом случае усреднение дисперсии приводит к правильному ответу, который равен 0, поскольку в каждом году мы производим в среднем ровно 1500 МВт. Математически в этом случае интересующей случайной величиной является среднее значение выработки энергии за день, где усреднение производится за весь год.