Вместо того, чтобы углубляться в математику, я постараюсь выразить это простыми словами. Если в вашем распоряжении есть все население, тогда его дисперсия ( дисперсия населения ) вычисляется с помощью знаменателя N
. Аналогично, если у вас есть только выборка и вы хотите вычислить дисперсию этого образца , вы используете знаменатель N
(в данном случае n выборки). Обратите внимание, что в обоих случаях вы ничего не оцениваете : среднее значение, которое вы измерили, является истинным средним значением, а отклонение, которое вы вычислили из этого среднего значения, является истинным отклонением.
Теперь у вас есть только выборка, и вы хотите сделать вывод о неизвестном среднем значении и дисперсии в популяции. Другими словами, вы хотите оценки . Вы берете среднее значение по выборке для оценки среднего значения по совокупности (поскольку ваша выборка является репрезентативной), хорошо. Чтобы получить оценку дисперсии популяции, вы должны сделать вид, что это среднее значение действительно является средним значением популяции, и, следовательно, оно больше не зависит от вашей выборки с тех пор, как вы ее вычислили. Чтобы «показать», что вы теперь принимаете это как фиксированное, вы резервируете одно (любое) наблюдение из вашей выборки, чтобы «поддержать» значение среднего значения: независимо от того, что могло произойти с вашей выборкой, одно зарезервированное наблюдение всегда могло бы привести среднее значение к значению, которое вы ' у нас есть и которые считают нечувствительным к случайным выборкам. Одно зарезервированное наблюдение "-1"N-1
в вычислении оценки дисперсии.
Представьте, что вы как-то знаете истинное среднее значение популяции, но хотите оценить отклонения от выборки. Затем вы подставите это истинное среднее в формулу для дисперсии и примените знаменатель N
: здесь «-1» не требуется, поскольку вы знаете истинное среднее, вы не оценили его по этой же выборке.