Интуитивное объяснение деления на при расчете стандартного отклонения?


136

Сегодня в классе меня спросили, почему при расчете стандартного отклонения вы делите сумму квадратичной ошибки на а не на .nn1n

Я сказал, что не собираюсь отвечать на этот вопрос в классе (поскольку я не хотел вдаваться в объективные оценки), но позже я удивился - есть ли интуитивное объяснение этому ?!


29
Я хотел бы процитировать этого зингера из книги « Численные рецепты» : «... если разница между и когда либо имеет для вас значение, то вы, вероятно, все равно ничего не добьетесь - например, пытаясь обосновать сомнительную гипотезу с предельными данными. " n - 1nn1
JM не является статистиком

11
действительно элегантное, интуитивно понятное объяснение представлено здесь (ниже доказательства) en.wikipedia.org/wiki/… Основная идея заключается в том, что ваши наблюдения, естественно, будут ближе к среднему значению выборки, чем среднее значение популяции.
WetlabStudent

12
@ Tal, вот почему школы отстой. Вы спрашиваете их «почему это ?», А они отвечают «просто запомните это».
Pacerier

1
Если вы ищете интуитивное объяснение, вы должны увидеть причину для себя, фактически взяв образцы! Посмотрите, это точно ответит на ваш вопрос. youtube.com/watch?v=xslIhnquFoE
Сахил Чаудхари

tl; dr: (из верхнего ответа :) "... стандартное отклонение, которое рассчитывается с использованием отклонений от среднего значения выборки, недооценивает желаемое стандартное отклонение населения ..." См. также: en.wikipedia.org/wiki/… Итак, если вы не хотите вычислять что-то несколько сложное, просто используйте n-1, если это из образца.
Андрей

Ответы:


99

Стандартное отклонение, рассчитанное с делителем представляет собой стандартное отклонение, рассчитанное по выборке как оценка стандартного отклонения популяции, из которой была выбрана выборка. Поскольку наблюдаемые значения в среднем падают ближе к среднему значению выборки, чем к среднему значению для популяции, стандартное отклонение, которое рассчитывается с использованием отклонений от среднего значения для выборки, недооценивает требуемое стандартное отклонение для популяции. Использование вместо в качестве делителя исправляет это, делая результат немного больше.n - 1 nn1n1n

Обратите внимание, что коррекция имеет больший пропорциональный эффект, когда мало, чем когда оно большое, что мы и хотим, потому что, когда n больше, среднее значение выборки, вероятно, будет хорошей оценкой среднего значения по совокупности.n

Когда выборка представляет собой целую совокупность, мы используем стандартное отклонение с в качестве делителя, поскольку среднее значение по выборке является средним по совокупности.n

(В скобках отмечу, что ничто, начинающееся со слов «второй момент, окруженный известным, определенным средним значением», не удовлетворит просьбу спрашивающего дать интуитивное объяснение.)


13
Давайте не будем путать «интуитивное» с «нетехническим».
whuber

32
@ Майкл, это не объясняет, почему мы используем n−1вместо n−2(или даже n−3)?
Pacerier

1
@Pacerier Посмотрите на ответ Whuber ниже для деталей по этому вопросу. По сути, коррекция n-1, а не n-2 и т. Д., Поскольку коррекция n-1 дает результаты, которые очень близки к тому, что нам нужно. Более точные исправления показаны здесь: en.wikipedia.org/wiki/Unbiased_estima_of_standard_deviation
Майкл Лью,

1
Привет @ Майкл, так почему же отклонение, рассчитанное по среднему значению выборки, обычно меньше среднего по популяции?
Аллен

1
«Поскольку наблюдаемые значения в среднем падают ближе к среднему значению выборки, чем к среднему значению для популяции, стандартное отклонение, которое рассчитывается с использованием отклонений от среднего значения для выборки, недооценивает требуемое стандартное отклонение для популяции». Почему выборочное значение всегда недооценивает? Что если это переоценить?
Бора М. Альпер

55

Распространенным является то, что определение дисперсии (распределения) - это второй момент, повторяющийся вокруг известного, определенного среднего значения, тогда как оценщик использует оценочное среднее. Эта потеря степени свободы (учитывая среднее значение, вы можете воссоздать набор данных со знанием только значений данных) требует использования а не чтобы «скорректировать» результат.n - 1 nn1n1n

Такое объяснение согласуется с оценочными отклонениями в анализе ANOVA и компонентами дисперсии. Это действительно просто особый случай.

Я думаю, что необходимость внести некоторую корректировку, которая раздувает дисперсию, может быть интуитивно понятна с помощью обоснованного аргумента, который не является просто фактическим маханием рукой. (Я помню , что студент , возможно, сделал такой аргумент в его 1908 документ о т-теста.) Почему корректировка дисперсии должна быть точно фактором труднее оправдать, особенно если учесть , что скорректированное SD не является объективной оценкой. (Это просто квадратный корень несмещенной оценки дисперсии. Будучи несмещенным, обычно не выдерживает нелинейного преобразования.) Таким образом, на самом деле, правильная корректировка SD для устранения ее смещения не является факторомn/(n1)n/(n1) вообще!

Некоторые вводные учебники даже не удосуживаются ввести скорректированный сд: они учат одной формуле (делим на ). Сначала я негативно отреагировал на это, когда преподавал из такой книги, но стал ценить мудрость: чтобы сосредоточиться на концепциях и приложениях, авторы отбрасывают все несущественные математические тонкости. Оказывается, ничего не пострадало и никто не введен в заблуждение.n


1
Спасибо, Вубер. Я должен учить студентов с коррекцией n-1, поэтому деление на n не является возможным вариантом. Как написано до меня, упоминать связь со вторым моментом не вариант. Хотя упомянуть, как среднее значение уже было оценено, тем самым оставляя нам меньше «данных» для SD - это важно. Что касается предвзятости SD - я вспомнил, что столкнулся с ним - спасибо, что отвезли эту точку домой. Лучший, Тал
Тал Галили

3
@Tal Я писал на вашем языке, а не на языке ваших учеников, потому что я уверен, что вы вполне способны перевести его на то, что, как вы знаете, дойдет до них. Другими словами, я интерпретировал «интуитивный» в вашем вопросе как интуитивный для вас .
whuber

1
Привет Уубер. Спасибо за вотум доверия :). Потеря степени свободы для оценки ожидаемой продолжительности - это то, что я думал использовать в классе. Проблема в том, что само понятие «степени свободы» требует знания / интуиции. Но в сочетании с некоторыми другими ответами, приведенными в этой теме, будет полезно (для меня, и я надеюсь, что другие в будущем). Лучший, Тал
Тал Галили

Для больших обычно нет большой разницы между делением на или , поэтому было бы приемлемо ввести нескорректированную формулу при условии, что она предназначена для применения к большим выборкам, нет? n n - 1nnn1
PatrickT

1
@Patrick Вы можете читать слишком много в мой ответ, потому что это явно о причинах: они педагогические и не имеют ничего общего с ли велик или нет. n
whuber

50

По определению, дисперсия рассчитывается путем взятия суммы квадратов разностей от среднего значения и деления на размер. У нас есть общая формула

μNσ2=iN(Xiμ)2N где - среднее значение, а - численность населения.μN

Согласно этому определению, дисперсия образца (например, образца ) также должна быть рассчитана таким образом.t

¯ X nσt2=in(XiX¯)2n где - это среднее значение, а - размер этой небольшой выборки. ,X¯n

Однако под выборочной дисперсией мы подразумеваем оценку дисперсии совокупности . Как мы можем оценить только используя значения из образца?σ 2 σ 2S2σ2σ2

Согласно формулам выше, случайная величина отклоняется от среднего значения выборки с дисперсией . Среднее значение выборки также отклоняется от с дисперсией поскольку среднее значение выборки получает разные значения от выборки к выборке и является случайной величиной со средним значением и дисперсией . (Можно легко доказать.)¯ X σ 2 t ¯ X μ σ 2XX¯σt2X¯μ μσ2σ2nμσ2n

Поэтому, примерно, должен отклоняться от с дисперсией, которая включает в себя две дисперсии, поэтому сложите эти два и получите . Решая это, мы получаем . Замена дает нашу оценку дисперсии населения:μ σ 2 = σ 2 t + σ 2Xμ σ2=σ 2 t ×nσ2=σt2+σ2n σ 2 тσ2=σt2×nn1σt2

S2=in(XiX¯)2n1 .

Можно также доказать, что верно.E[S2]=σ2


Я надеюсь, что это не слишком тривиально: это факт, что среднее значение выборки сходится к ND ( , σμ ) так как n становится сколь угодно большим, причина выборочного среднего отклоняется от действительного среднего с дисперсиейσ2σn ? σ2n
RexYuan

6
Это лучшее объяснение, чем другие, потому что оно показывает уравнения и производные, вместо простого употребления ягга-ягги со статистическими терминами.
Нав

1
@sevenkul можем ли мы как-то посмотреть на это визуально? когда вы говорите, что X должен отклоняться от с этой чистой дисперсией, я μ
теряюсь

17

Это полная интуиция, но самый простой ответ заключается в том, что исправление сделано для того, чтобы стандартное отклонение выборки из одного элемента было неопределенным, а не 0.


11
Почему бы тогда не использовать или даже1nn21 как поправки? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
еще более «экономно». :-)1n1
whuber

2
@mbq, Что касается вашего ответа ~ "это поправка, сделанная для того, чтобы стандартное отклонение выборки из одного элемента было неопределенным, а не 0", это действительно причина, или это ответ шутка? Вы знаете, не такие как мы не могут сказать.
Pacerier

4
Формально, это следствие, а не причина, но, как я уже писал, я считаю, что это хорошая интуиция, чтобы запомнить это.

14

Вы можете получить более глубокое понимание термина помощью геометрии, не только почему это не n, но почему он принимает именно эту форму, но вам может сначала понадобиться создать свою интуицию, чтобы справиться с n- мерной геометрией. Оттуда, однако, это небольшой шаг к более глубокому пониманию степеней свободы в линейных моделях (то есть модели df и остаточного df). Я думаю, что мало сомнений в том, что Фишер думал так. Вот книга, которая строит это постепенно:n1nn

Савилль DJ, Вуд GR. Статистические методы: геометрический подход . 3-е издание. Нью-Йорк: Спрингер-Верлаг; 1991. 560 с. 9780387975177

(Да, 560 страниц. Я сказал постепенно.)


Однажды спасибо - я не думал, что будет ответ от этого направления. Любой способ подвести итог интуиции, или это вряд ли возможно? Приветствия, Тал
Тал Галили

Я не мог сделать это сам, но рецензент книги суммировал подход в параграфе на амер. Стат. в 1993 году: jstor.org/stable/2684984 . Я не уверен, что действительно практично использовать этот подход с вашими студентами, если вы не примете его для всего курса.
2010 г.

Можете ли вы обобщить немного интуиции, а не просто книгу?
oliversm

12

Оценка дисперсии населения смещена при применении к выборке населения. Чтобы скорректировать это смещение, необходимо разделить на n-1 вместо n. Можно математически показать, что оценка выборочной дисперсии несмещена, когда мы делим на n-1 вместо n. Формальное доказательство предоставлено здесь:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Изначально, я полагаю, именно математическая правильность привела к формуле. Однако, если кто-то хочет добавить интуицию к формуле, уже упомянутые предложения представляются разумными.

Во-первых, наблюдения выборки в среднем ближе к средней выборке, чем к средней популяции. Оценщик дисперсии использует среднее значение выборки и, как следствие, недооценивает истинную дисперсию совокупности. Деление на n-1 вместо n исправляет это смещение.

Кроме того, деление на n-1 делает дисперсию выборки из одного элемента неопределенной, а не нулевой.


12

Почему делим на а не на n ? Потому что это обычно и приводит к непредвзятой оценке дисперсии. Однако это приводит к смещенной (низкой) оценке стандартного отклонения, что можно увидеть, применяя неравенство Дженсена к вогнутой функции, квадратному корню.n1n

Так что же такого хорошего в объективной оценке? Это не обязательно минимизирует среднеквадратичную ошибку. MLE для нормального распределения - это деление на а не на n - 1 . Научите своих учеников думать, а не извергать и бездумно применять устаревшие представления столетней давности.nn1


8
n1

1
Мое последнее предложение было дружеским советом для всех заинтересованных сторон, в отличие от нападения на ФП.
Марк Л. Стоун

При большом использовании это не имеет значения, при использовании в тестах или для доверительных интервалов нужно было бы корректировать другие части процедуры и, в конце концов, получить тот же результат!
kjetil b halvorsen

8

αz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Только на этом обмене стека это когда-либо будет считаться интуитивным ответом.
Джозеф Гарвин

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Чтобы перейти от определения дисперсии случайных величин к определению дисперсии выборки, необходимо оценить ожидание с помощью среднего значения, которое может быть оправдано философским принципом типичности: выборка представляет собой типичное представление распределения. (Обратите внимание, что это связано, но не совпадает с оценкой по моментам.)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Непонятно, почему «бесконечная дисперсия будет более весомым результатом», чем нулевая дисперсия. Действительно, вы, кажется, используете «выборочную дисперсию» в смысле оценки дисперсии , что еще более запутанно.
whuber

1
0<

4

По предложению whuber этот ответ был скопирован с другого подобного вопроса .

Поправка Бесселя принята для исправления смещения при использовании выборочной дисперсии в качестве оценки истинной дисперсии. Смещение в нескорректированной статистике происходит потому, что среднее значение выборки ближе к середине наблюдений, чем истинное среднее, и поэтому квадратичные отклонения вокруг среднего значения выборки систематически занижают квадратичные отклонения вокруг истинного среднего значения.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Взятие ожиданий дает:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Спасибо за доказательство!
upupming

0

Обычно использование «n» в знаменателе дает меньшие значения, чем дисперсия населения, что мы и хотим оценить. Особенно это происходит, если брать маленькие образцы. На языке статистики мы говорим, что выборочная дисперсия дает «смещенную» оценку дисперсии населения и должна быть «беспристрастной».

Если вы ищете интуитивное объяснение, вы должны позволить своим студентам увидеть причину для себя, фактически взяв образцы! Посмотрите, это точно ответит на ваш вопрос.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Чтобы ответить на этот вопрос, мы должны вернуться к определению объективной оценки. Беспристрастный оценщик - тот, ожидание которого стремится к истинному ожиданию. Среднее значение выборки является объективной оценкой. Чтобы понять почему:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Давайте посмотрим на ожидание выборочной дисперсии,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

Обобщенное распределение T ученика имеет три параметра и использует все три ваши статистические данные. Если вы решите выбросить некоторую информацию, вы можете дополнительно приблизить свои данные, используя нормальное распределение с двумя параметрами, как описано в вашем вопросе.

С байесовской точки зрения вы можете себе представить, что неопределенность в гиперпараметрах модели (распределения по среднему и дисперсии) приводит к тому, что дисперсия апостериорного предиктивного значения больше, чем дисперсия популяции.


-4

Боже мой, это становится все сложнее! Я думал, что простой ответ был ... если у вас есть все точки данных, которые вы можете использовать «n», но если у вас есть «выборка», то, предполагая, что это случайная выборка, вы получите больше точек выборки из стандартного отклонения чем снаружи (определение стандартного отклонения). Вам просто не хватает данных снаружи, чтобы гарантировать, что вы получите все необходимые данные в случайном порядке. N-1 помогает расширяться в сторону «реального» стандартного отклонения.


3
n1n2
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.