Почему мы используем смещенную и вводящую в заблуждение формулу стандартного отклонения для нормального распределения?


20

Для меня это было шоком, когда я впервые выполнил моделирование методом Монте-Карло с нормальным распределением и обнаружил, что среднее значение стандартных отклонений от выборок, все из которых имеют размер выборки только , оказалось намного меньше чем, т. е. в среднем раз, используется для генерации населения. Тем не менее, это хорошо известно, если редко вспоминать, и я вроде бы знал, иначе я бы не делал симуляцию. Вот симуляция.100 n = 2 100100n=22πσ

Вот пример для прогнозирования 95% доверительных интервалов с использованием 100, , оценок и .N(0,1)n=2SDE(sn=2)=π2SD

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Перетащите ползунок вниз, чтобы увидеть общие итоги. Теперь я использовал обычный оценщик SD для вычисления 95% доверительных интервалов вокруг среднего значения нуля, и они отклоняются на 0,3551 единицы стандартного отклонения. Оценка E (s) отключена только на 0,0515 единиц стандартного отклонения. Если оценивать стандартное отклонение, стандартную ошибку среднего или t-статистику, может возникнуть проблема.

Я рассуждал так: среднее значение двух значений может быть где угодно по отношению к и определенно не находится в , что дает абсолютную минимально возможную сумму в квадрате, поэтому мы существенно недооцениваемx 1 x 1 + x 2μx1 σx1+x22σ

wlog let , тогда равно , наименьший возможный результат.Е п я = 1 ( х я - ° х ) 2 2 ( дx2x1=dΣi=1n(xix¯)22(d2)2=d22

Это означает, что стандартное отклонение рассчитывается как

SD=Σi=1n(xix¯)2n1 ,

является предвзятой оценкой стандартного отклонения населения ( ). Обратите внимание, что в этой формуле мы уменьшаем степени свободы на 1 и делим на , т.е. делаем некоторую коррекцию, но это только асимптотически правильно, и будет лучшим эмпирическим правилом . Для нашего примера формула дала бы нам , статистически неправдоподобное минимальное значение как , где лучше ожидаемое значение ( ) будетп п - 1 п - 3 / 2 х 2 - х 1 = d SD S D = Dσnn1n3/2x2x1=dSDμˉxsE(s)=SD=d20.707dμx¯sn<10SDσn25n<25n=1000E(s)=π2d2=π2d0.886d, Для обычного расчета, при , страдают от очень существенной недооценки, называемой небольшим смещением числа , которая приближается к 1% недооценке когда равно приблизительно . Поскольку во многих биологических экспериментах , это действительно проблема. Для погрешность составляет приблизительно 25 частей на 100 000. В целом, коррекция смещения малого числа подразумевает, что объективная оценка стандартного отклонения популяции нормального распределенияn<10SDσn25n<25n=1000

E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22>SD=Σi=1n(xix¯)2n1.

Из Википедии под лицензированием Creative Commons есть сюжет недооценки SDσ <a title = "By Rb88guy (собственная работа) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) или GFDL (http://www.gnu.org/copyleft/fdl .html)], через Викисклад upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg "/> </a>

Поскольку SD - это предвзятая оценка стандартного отклонения популяции, она не может быть минимальной дисперсией несмещенной оценки MVUE стандартного отклонения популяции, если мы не будем довольны, говоря, что это MVUE как , которым я, например, не являюсь.n

По поводу ненормальных дистрибутивов и примерно беспристрастного читайте это .SD

Теперь возникает вопрос Q1

Можно ли доказать, что выше - это MVUE для нормального распределения размера выборки , где - положительное целое число больше единицы?σ n nE(s)σnn

Подсказка: (но не ответ) см. Как найти стандартное отклонение стандартного отклонения выборки от нормального распределения? ,

Следующий вопрос, Q2

Кто-нибудь, пожалуйста, объясните мне, почему мы так или иначе используем поскольку это явно предвзято и вводит в заблуждение? То есть, почему бы не использовать для большей части всего? E ( s )SDE(s)Кроме того, в ответах ниже стало ясно, что дисперсия непредвзята, но ее квадратный корень смещен. Я бы попросил, чтобы ответы отвечали на вопрос, когда следует использовать объективное стандартное отклонение.

Как выясняется, частичный ответ состоит в том, что во избежание смещения в моделировании, приведенном выше, дисперсии могли бы быть усреднены, а не значения SD. Чтобы увидеть эффект этого, если мы возведем в квадрат столбец SD выше и усредним эти значения, мы получим 0,9994, квадратный корень которого является оценкой стандартного отклонения 0,9996915, а ошибка, для которой составляет только 0,0006 для хвоста 2,5% и -0.0006 для хвоста 95%. Обратите внимание, что это потому, что дисперсии являются аддитивными, поэтому их усреднение является процедурой с низкой ошибкой. Тем не менее, стандартные отклонения являются предвзятыми, и в тех случаях, когда мы не можем позволить себе роскошь использовать отклонения в качестве посредника, нам по-прежнему нужна небольшая коррекция числа. Даже если мы можем использовать дисперсию в качестве посредника, в этом случае дляn=100небольшая выборочная коррекция предлагает умножить квадратный корень несмещенной дисперсии 0,9996915 на 1,002528401, чтобы получить 1,002219148 в качестве несмещенной оценки стандартного отклонения. Итак, да, мы можем отложить использование коррекции малого числа, но следует ли поэтому полностью ее игнорировать?

Вопрос здесь заключается в том, когда мы должны использовать коррекцию малого числа, а не игнорировать ее использование, и преимущественно мы избегали ее использования.

Вот еще один пример, минимальное количество точек в пространстве для установления линейного тренда с ошибкой равно трем. Если мы подгоним эти точки обычными наименьшими квадратами, результатом для многих таких подгонок будет сложенный нормальный остаточный шаблон, если есть нелинейность, и половина нормального, если есть линейность. В полунормальном случае наше среднее распределение требует коррекции малого числа. Если мы попробуем тот же трюк с 4 или более точками, распределение, как правило, не будет нормальным или легким для характеристики. Можем ли мы использовать дисперсию, чтобы как-то объединить эти 3-точечные результаты? Возможно, возможно нет. Однако легче представить себе проблемы с точки зрения расстояний и векторов.


Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
whuber

3
Q1: см. Теорему Лемана-Шеффе.
Scortchi - Восстановить Монику

1
Ненулевое смещение оценки не обязательно является недостатком. Например, если мы хотим иметь точную оценку при квадратичной потере, мы готовы вызвать смещение, если оно уменьшает дисперсию на достаточно большую величину. Вот почему (смещенные) регуляризованные оценки могут работать лучше, чем (смещенные) оценки OLS, например, в модели линейной регрессии.
Ричард Харди

3
@Carl много терминов используются по-разному в разных областях применения. Если вы публикуете в статистической группе и используете жаргонный термин, такой как «предвзятость», естественно, предполагается, что вы используете специфическое значение термина (ов), относящихся к статистике. Если вы имеете в виду что - то еще, важно либо использовать другой термин, либо четко определить, что вы подразумеваете под термином «сразу при первом использовании».
Glen_b

2
«предвзятость», безусловно, является термином жаргон - специальные слова или выражения, используемые профессией или группой, которые другим трудно понять, кажется, в значительной степени, что такое «предвзятость». Именно потому, что такие термины имеют точные, специализированные определения в своих областях применения (включая математические определения), что делает их жаргонными терминами.
Glen_b

Ответы:


34

Для более ограниченного вопроса

Почему обычно используется формула предвзятого стандартного отклонения?

простой ответ

Потому что связанная оценка дисперсии является непредвзятой. Нет реального математического / статистического обоснования.

может быть точным во многих случаях.

Однако это не всегда так. Есть по крайней мере два важных аспекта этих вопросов, которые следует понимать.

Во-первых, выборочная дисперсия не просто несмещена для гауссовских случайных величин. Это несмещено для любого распределения с конечной дисперсией (как обсуждено ниже, в моем оригинальном ответе). В вопросе отмечается, что не является беспристрастным для , и предлагается альтернатива, которая несмещена для случайной переменной Гаусса. Однако важно отметить, что в отличие от дисперсии, для стандартного отклонения не может быть объективной оценки «без распределения» (* см. Примечание ниже).σ 2 s σs2σ2sσ

Во-вторых, как отмечается в комментарии whuber, тот факт, что смещен, не влияет на стандартное «t-тест». Во-первых, обратите внимание, что для гауссовой переменной , если мы оценим z-оценки из образца как тогда они будут предвзятыми.x { x i } z i = x i - μsИкс{Икся}

Zязнак равноИкся-μσИкся-Икс¯s

Однако статистика т, как правило , используется в контексте распределения выборки из . В этом случае z-оценка будет хотя мы не можем вычислить ни ни , поскольку мы не знаем . Тем не менее, если статистика будет нормальной, тогда статистика будет следовать распределению Student-t . Это не большое приближение. Единственное предположение состоит в том, что образцы имеют гауссову форму. z ˉ x = ˉ x -μИкс¯ztμz ˉ x tnx

ZИкс¯знак равноИкс¯-μσИкс¯Икс¯-μs/Nзнак равноT
ZTμZИкс¯TNИкс

(Обычно т-тест применяется в более широком смысле для возможного негауссовым . Это действительно полагаться на по большему , что в центральной предельной теореме гарантирует , что равно будет гауссовским.)n ˉ xИксNИкс¯


* Разъяснение "беспристрастной оценки без распределения"

Под «свободным распространением» я подразумеваю, что оценщик не может зависеть от какой-либо информации о совокупности кроме выборки . Под «непредвзятым» я подразумеваю, что ожидаемая ошибка равна нулю независимо от размера выборки . (В отличие от оценки, которая является просто асимптотически несмещенной, то есть « последовательной », для которой смещение исчезает как .){ х 1 , ... , х п } Е [ θИкс{Икс1,...,ИксN}п п Е[θ^N]-θNN

В комментариях это было приведено в качестве возможного примера «объективной оценки без распределения». Немного абстрагируясь, эта оценка имеет вид , где - избыточный эксцесс . Эта оценка не является "свободной от распространения", так как зависит от распределения . Говорят, что оценщик удовлетворяет , где - дисперсия . Следовательно, оценка является последовательной, но не (абсолютно) «беспристрастной», какκххκххσ^знак равное[s,N,κИкс]κИксИксκИксИксσ 2 x x O [ 1Е[σ^]-σИксзнак равноО[1N]σИкс2ИксnО[1N]может быть сколь угодно большим для малого .N


Примечание: ниже мой оригинальный "ответ". С этого момента комментарии касаются стандартного «выборочного» среднего значения и дисперсии, которые являются «беспристрастными» несмещенными оценками (т. Е. Популяция не считается гауссовой).

Это не полный ответ, а скорее разъяснение того, почему обычно используется выборочная формула дисперсии .

Учитывая случайную выборку , при условии, что переменные имеют общее среднее значение, оценка будет беспристрастной , т.е. ˉ x = 1{Икс1,...,ИксN}E[xi]=μИкс¯знак равно1NΣяИкся

Е[Икся]знак равноμЕ[Икс¯]знак равноμ

Если переменные также имеют общую конечную дисперсию, и они не коррелированы , то оценка будет также быть беспристрастным, то есть Обратите внимание, что непредвзятость этих оценок зависит только от вышеупомянутых предположений (и линейности ожидания; доказательство является просто алгеброй). Результат не зависит от какого-либо конкретного распределения, например, гауссовского. Переменные этого не должны иметь общее распределение, и они даже не должны бытьЕ[хяхJ]-μ2=s2знак равно1N-1Σя(Икся-Икс¯)2x i

E[xixj]μ2={σ2i=j0ijE[s2]=σ2
xянезависимый (т.е. образец не должен быть идентифицирован ).

«Стандартное отклонение выборки» это не несмещенная оценка, , но тем не менее он часто используется. Я предполагаю, что это просто потому, что это квадратный корень несмещенной выборочной дисперсии. (Без более сложного обоснования.)sσssσ

В случае гауссовой выборки iid максимальные вероятностные оценки (MLE) параметров: и , то есть дисперсия делится на а не на . Более того, в случае гауссова iid стандартное отклонение MLE является просто квадратным корнем из дисперсии MLE. Однако эти формулы, как и подсказка в вашем вопросе, зависят от предположения о гауссовском iid. ( σ 2)MLE=п-1μ^MLE=x¯ н н 2(σ^2)MLE=n1ns2nn2


Обновление: дополнительные разъяснения по поводу «предвзятого» против «непредвзятого».

Рассмотрим -элементную выборку, как указано выше, , с отклонением суммы квадратов Учитывая изложенные предположения в первой части выше мы обязательно имеем так что оценка (Gaussian-) MLE смещена тогда как оценщик "выборочной дисперсии" несмещен X = { x 1 , , x n } δ 2 n = i ( x i - ˉ x ) 2 E [ δ 2 n ] = ( n - 1 ) σ 2nX={x1,,xn}

δn2=i(xix¯)2
E[δn2]=(n1)σ2
σn2^=1nδn2E[σn2^]=n1nσ2
sn2=1n1δn2E[sn2]=σ2

Теперь верно, что становится менее предвзятым с увеличением размера выборки . Однако имеет нулевое смещение независимо от размера выборки (при условии, что ). Для обеих оценок, то дисперсия их распределения выборки будет равен нулю, и зависят от . нс 2 нσn2^nsn2nn>1n

В качестве примера в приведенном ниже коде Matlab рассматривается эксперимент с выборками из стандартно-нормальной популяции . Чтобы оценить выборочные распределения для , эксперимент повторяют раз. (Вы можете вырезать и вставить код здесь, чтобы попробовать его самостоятельно.)z ˉ x , ^ σ 2 , с 2n=2zx¯,σ2^,s2N=106

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

Типичный результат как

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

подтверждая, что

E[z¯](z¯)¯μ=0E[s2](s2)¯σ2=1E[σ2^](σ2^)¯n1nσ2=12

Обновление 2: заметка об принципиально «алгебраической» природе беспристрастности.

В приведенной выше числовой демонстрации код аппроксимирует истинное ожидание используя среднее по ансамблю с повторениями эксперимента (т. Каждая представляет собой выборку размером ). Даже при таком большом количестве типичные результаты, приведенные выше, далеко не точны.N = 10 6E[]N=106Nзнак равно2

Чтобы численно продемонстрировать, что оценки действительно беспристрастны, мы можем использовать простой трюк для аппроксимации случая : просто добавьте следующую строку в кодN

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(после «генерировать стандартные-нормальные случайные #» и перед «вычислять статистику выборки»)

С этим простым изменением даже выполнение кода с дает такие результатыNзнак равно10

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

3
@amoeba Хорошо, я съем свою шляпу. Я возводил в квадрат значения SD в каждой строке, затем усреднял их, и они оказывались беспристрастными (0,9994), тогда как сами значения SD - нет. Это значит, что вы и GeoMatt22 правы, а я не прав.
Карл

2
@Carl: Обычно верно, что преобразование несмещенной оценки параметра не дает объективной оценки преобразованного параметра, кроме случаев, когда преобразование является аффинным, что следует из линейности ожидания. Так в каком масштабе беспристрастность важна для вас?
Scortchi - Восстановить Монику

4
Карл: Я прошу прощения, если вы считаете, что мой ответ был ортогональным к вашему вопросу. Он был призван дать правдоподобное объяснение Q: «почему обычно используется формула предвзятого стандартного отклонения?» A: «просто потому, что связанный оценщик дисперсии объективен по сравнению с любым реальным математическим / статистическим обоснованием». Что касается вашего комментария, обычно «непредвзято» описывает оценщик, ожидаемое значение которого является правильным, независимо от размера выборки. Если он беспристрастен только в пределе бесконечного размера выборки, обычно его называют « последовательным ».
GeoMatt22

3
(+1) Хороший ответ. Небольшое предостережение: этот отрывок из Википедии о согласованности, процитированный в этом ответе, является небольшим беспорядком, и сделанное в скобках заявление, касающееся этого, потенциально вводит в заблуждение. «Согласованность» и «асимптотическая непредвзятость» являются в некотором смысле ортогональными свойствами оценки. Подробнее об этом смотрите в ветке комментариев к этому ответу .
кардинал

3
+1, но я думаю, что @Scortchi делает действительно важный момент в своем ответе, который не упоминается в вашем: а именно, что даже для гауссовского населения непредвзятая оценка имеет более высокую ожидаемую ошибку, чем стандартная предвзятая оценка (из-за к высокой дисперсии первого). Это сильный аргумент в пользу того, чтобы не использовать несмещенную оценку, даже если известно, что базовое распределение является гауссовским. σσσ
говорит амеба: восстанови Монику

15

Пример стандартного отклонения является полным и достаточным для поэтому набор несмещенных оценок даноSзнак равноΣ(Икс-Икс¯)2N-1σσК

(N-1)К22К2Γ(N-12)Γ(N+К-12)SКзнак равноSКсК

(См. Почему выборочное стандартное отклонение является смещенной оценкой ?σ ), Согласно теореме Лемана – Шеффе, UMVUE. Последовательные, хотя и необъективные, оценки также могут быть сформированы какσК

σ~jk=(Sjcj)kj

(объективные оценки указываются, когда ). Уклон каждого даетсяj=k

Eσ~jkσk=(ckcjkj1)σК

& его отклонение от

Varσ~JКзнак равноЕσ~J2К-(Еσ~JК)2знак равнос2К-сК2сJ2КJσ2К

Для двух оценщиков вы рассматривали, & , отсутствие смещения более чем компенсируется большей дисперсией по сравнению с :σσ~11знак равноSс1σ~21знак равноSσ~1σ~2

Еσ~1-σзнак равно0Еσ~2-σзнак равно(с1-1)σVarσ~1знак равноЕσ~12-(Еσ~11)2знак равнос2-с12с12σ2знак равно(1с12-1)σ2Varσ~2знак равноЕσ~12-(Еσ~2)2знак равнос2-с12с2σ2знак равно(1-с12)σ2
(обратите внимание, что , так как уже является объективной оценкой )с2знак равно1S2σ2

График, показывающий вклад смещения и дисперсии в MSE при размерах выборки от одного до 20 для двух оценщиков

Среднеквадратичная ошибка как оценки определяется выражениемaКSКσ2

(ЕaКSК-σК)2+Е(aКSК)2-(ЕaКSК)2знак равно[(aКсК-1)2+aК2с2К-aК2сК2]σ2Кзнак равно(aК2с2К-2aКсК+1)σ2К

и, следовательно, минимизируется, когда

aКзнак равносКс2К

, что позволяет определить другой набор оценок, представляющих потенциальный интерес:

σ^JКзнак равно(сJSJс2J)КJ

Любопытно, что , поэтому та же самая константа, которая делит для устранения смещения, умножает на уменьшение MSE. В любом случае, это равномерно минимальные дисперсионно-инвариантные и масштабно-эквивалентные оценки (вы не хотите, чтобы ваша оценка вообще менялась, если вы измеряете в Кельвинах, а не в градусах Цельсия, и вы хотите, чтобы она изменялась на коэффициент если вы измеряете по Фаренгейту).σ^11знак равнос1SSSσК(95)К

Ничто из вышеперечисленного не имеет никакого отношения к построению тестов гипотез или доверительных интервалов (см., Например, Почему в этом отрывке говорится, что объективная оценка стандартного отклонения обычно не имеет значения? ). И & исчерпывают ни оценщиков, ни шкал параметров, представляющих потенциальный интерес - рассмотрим оценку максимального правдоподобия или средне-объективный оценщик ; или стандартное геометрическое отклонение логнормального распределения . Возможно, стоит показать несколько более или менее популярных оценок, сделанных из небольшой выборки (σ~JКσ^JК N-1NSN-1χN-12(0,5)SеσNзнак равно2) вместе с верхней и нижней границами, & , равноправного доверительного интервала, имеющего покрытие :(N-1)s2χN-12(α)(N-1)s2χN-12(1-α)1-α

доверительное распределение для $ \ sigma $ с оценками

Промежуток между наиболее расходящимися оценками незначителен по сравнению с шириной любого доверительного интервала, имеющего приличный охват. (95% CI, например, составляет(0,45s,31,9s).) Нет смысла быть привередливым к свойствам точечного оценщика, если вы не готовы достаточно четко указать, для чего вы хотите его использовать - наиболее явно вы можете определить пользовательскую функцию потерь для конкретного приложения. Причина, по которой вы можете предпочесть точную (или почти) непредвзятую оценку, заключается в том, что вы собираетесь использовать ее в последующих вычислениях, во время которых вы не хотите, чтобы смещение накапливалось: ваша иллюстрация усреднения смещенных оценок стандартного отклонения является простым примером такие (более сложный пример мог бы использовать их как ответ в линейной регрессии). В принципе, всеохватывающая модель должна устранить необходимость в непредвзятых оценках в качестве промежуточного шага, но она может быть значительно более сложной для определения и подгонки.

† Значение которое делает наблюдаемые данные наиболее вероятными, имеет привлекательную оценку как независимую от рассмотрения распределения выборки.σ


7

Q2: Кто-нибудь, пожалуйста, объясните мне, почему мы в любом случае используем SD, поскольку она явно предвзята и вводит в заблуждение?

Это было замечено в комментариях, но я думаю, что стоит повторить, потому что это суть ответа:

Типовая формула дисперсии несмещена, а дисперсии аддитивны . Так что, если вы собираетесь делать какие-либо (аффинные) преобразования, это серьезная статистическая причина, почему вы должны настаивать на «хорошей» оценке дисперсии над «хорошей» оценкой SD.

В идеальном мире они были бы эквивалентны. Но это не так в этой вселенной. Вы должны выбрать один, так что вы можете выбрать тот, который позволит вам объединить информацию в будущем.

Сравнивая два образца означает? Дисперсия их разности является суммой их дисперсий.
Делать линейный контраст с несколькими членами? Получите его дисперсию, взяв линейную комбинацию их дисперсий.
Глядя на линии регрессии подходит? Получите их дисперсию, используя матрицу дисперсии-ковариации ваших предполагаемых бета-коэффициентов.
Используя F-тесты, или t-тесты, или доверительные интервалы на основе t? F-тест призывает к отклонениям напрямую; и t-критерий в точности эквивалентен квадратному корню из F-критерия.

В каждом из этих распространенных сценариев, если вы начнете с непредвзятых отклонений, вы будете оставаться непредвзятыми до конца (если только ваш последний шаг не преобразуется в SD для отчетности).
Между тем, если бы вы начали с беспристрастных SD, ни ваши промежуточные шаги, ни конечный результат в любом случае не были бы беспристрастными .


Дисперсия - это не измерение расстояния, а стандартное отклонение. Да, векторные расстояния добавляются квадратами, но основным измерением является расстояние. Вопрос заключался в том, для чего вы будете использовать скорректированное расстояние, а не в том, почему мы должны игнорировать расстояние, как если бы оно не существовало.
Карл

Ну, я полагаю, что я утверждаю, что «основное измерение - это расстояние» не обязательно верно. 1) У вас есть метод для работы с непредвзятыми отклонениями; объединить их; принять окончательное полученное отклонение; и масштабировать свой sqrt, чтобы получить непредвзятое SD? Отлично, тогда сделай это. Если нет ... 2) Что вы собираетесь делать с SD из крошечного образца? Сообщить об этом самостоятельно? Лучше просто построить точки данных напрямую, а не суммировать их распространение. И как люди будут интерпретировать это, кроме как как вклад в SE и, следовательно, в CI? Это имеет смысл как вход для CI, но тогда я бы предпочел основанную на t CI (с обычным SD).
Civilstat

Я не думаю, что во многих клинических исследованиях или коммерческих программах с использовалась бы стандартная ошибка среднего значения, рассчитанного по исправленному стандартному отклонению для небольшой выборки, что приводило к ложному представлению о том, насколько малы эти ошибки. Я думаю, что даже этот один вопрос, даже если это единственный, следует игнорировать. N<25
Карл

«так что вы могли бы также выбрать тот, который позволит вам объединить информацию в будущем», а «основное измерение - это расстояние» - это не обязательно верно. Дом фермера Джо 640 акров вниз по дороге? Каждый использует правильное измерение правильно для каждой ситуации, или у другого есть более высокая терпимость к ложному свидетельству, чем у меня. Мой единственный вопрос здесь, когда использовать что, и ответ на него не «никогда».
Карл

1

Этот пост в общих чертах.

(1) Получение квадратного корня не является аффинным преобразованием (Credit @Scortchi.)

(2) , поэтомуvaр(s)знак равноЕ(s2)-Е(s)2Е(s)знак равноЕ(s2)-vaр(s)vaр(s)

(3)vaр(s)знак равноΣязнак равно1N(Икся-Икс¯)2N-1 , тогда какЕ(s)знак равноΓ(N-12)Γ(N2)Σязнак равно1N(Икся-Икс¯)22Σязнак равно1N(Икся-Икс¯)2N-1знак равноvaр(s)

(4) Таким образом, мы не можем заменитьvaр(s) на для small, поскольку квадратный корень не является аффинным.Е(s)N

(5) vaр(s) и несмещены (Credit @ GeoMatt22 и @Macro соответственно).Е(s)

(6) Для ненормальных распределений иногда (a) не определено (например, Коши, Парето с маленьким ) и (b) не UMVUE (например, Коши ( Student's- с ), Парето, Униформа, бета). Еще чаще, дисперсия может быть неопределенной, например, Student's с . Тогда можно утверждать, чтоИкс¯αTdезнак равно1T1dе2вар(s) не является UMVUE для общего случая распределения. Таким образом, в этом случае нет особого бремени для введения приблизительной коррекции малого числа для стандартного отклонения, которая, вероятно, имеет аналогичные ограничения для , но дополнительно менее предвзята,вар(s)σ^знак равно1N-1,5-14γ2Σязнак равно1N(Икся-Икс¯)2 ,

гдеγ2 - избыточный эксцесс. Аналогичным образом, при рассмотрении нормального квадратичного распределения (хи-квадрат с преобразованием ) у нас может возникнуть искушение взять его квадратный корень и использовать полученные в результате свойства нормального распределения. То есть, в общем, нормальное распределение может быть результатом преобразований других распределений, и может быть целесообразно изучить свойства этого нормального распределения, так что ограничение коррекции малого числа на нормальный случай не является настолько серьезным ограничением, как можно сначала предположим.dезнак равно1

Для случая нормального распределения:

A1: По теореме Лемана-Шеффе и имеют видvaр(s)Е(s) UMVUE (Credit @Scortchi).

A2: (Отредактировано для корректировки комментариев ниже.) Для мы должны использовать для стандартного отклонения, стандартной ошибки, доверительных интервалов среднего и распределения и, необязательно, для z- статистика. Для -тестирования мы не будем использовать несмещенную оценку , как сама Student's- распределенный с степенями свобода (Кредит @whuber и @ GeoMatt22). Для z-статистики обычно аппроксимируется, используя большое, для которого мало, но для которогоN25Е(s)TИкс¯-μвар(N)/NTN-1σNЕ(s)-вар(N)Е(s) кажется более математически уместным (Credit @whuber и @ GeoMatt22).


2
A2 неверен: следование этому рецепту приведет к явно недействительным тестам. Как я прокомментировал вопрос, возможно, слишком тонко: обратитесь к любому теоретическому описанию классического теста, такого как t-критерий, чтобы понять, почему коррекция смещения не имеет значения.
whuber

2
Существует сильный мета-аргумент, показывающий, почему коррекция смещения для статистических тестов является красной сельдью: если было бы неправильно не включать коэффициент коррекции смещения, то этот коэффициент уже был бы включен в стандартные таблицы распределения Стьюдента, F-распределения, и т.д. Другими словами: если я ошибаюсь в этом, то все ошибаются в статистическом тестировании за последнее столетие.
whuber

1
Я единственный, кто озадачен обозначениями здесь? Зачем использовать для обозначения , объективная оценка стандартного отклонения? Что ? Е(s)Γ(N-12)Γ(N2)Σязнак равно1N(Икся-Икс¯)22s
Scortchi - Восстановить Монику

2
@ Scortchi нотация, по-видимому, возникла как попытка унаследовать то, что используется в связанном посте . Здесь - дисперсия выборки, а - ожидаемое значение для гауссовой выборки. В этом вопросе « » было выбрано, чтобы быть новым оценщиком, полученным из оригинального сообщения (то есть что-то вроде где ). Если мы придем к удовлетворительному ответу на этот вопрос, возможно, будет оправдана очистка записи вопроса и ответа :)sЕ(s)sЕ(s)σ^s/ααЕ[s]/σ
GeoMatt22

2
Z-критерий предполагает, что знаменатель является точной оценкой . Это известное приближение, которое является только асимптотически правильным. Если вы хотите исправить это, не используйте смещение оценки SD - просто используйте t-критерий. Для этого и был придуман t-критерий. σ
whuber

0

Я хочу добавить байесовский ответ к этому обсуждению. Если вы предполагаете, что данные генерируются в соответствии с каким-то нормальным значением с неизвестным средним и дисперсией, это не означает, что вы должны суммировать свои данные, используя среднее значение и дисперсию. Этой всей проблемы можно избежать, если вы нарисуете модель, которая будет иметь апостериорный прогноз, представляющий собой трехпараметрическое нецентральное масштабированное Т-распределение Стьюдента. Три параметра - это сумма выборок, сумма квадратов выборок и количество выборок. (Или любая биективная карта этого.)

Кстати, мне нравится ответ от Civilstat, потому что он подчеркивает наше желание объединить информацию. Три приведенные выше достаточные статистические данные даже лучше, чем две, приведенные в вопросе (или в ответе Civilstat). Два набора этих статистических данных могут быть легко объединены, и они дают лучший последующий прогноз, исходя из предположения о нормальности.


Как тогда вычислить несмещенную стандартную ошибку среднего из этих трех достаточных статистических данных?
Карл

@carl Вы можете легко рассчитать его, так как у вас есть количество выборок , вы можете умножить нескорректированную дисперсию выборки на . Тем не менее, вы действительно не хотите этого делать. Это равносильно превращению ваших трех параметров в лучшее соответствие нормального распределения вашим ограниченным данным. Намного лучше использовать ваши три параметра, чтобы соответствовать истинному апостериорному предиктору: нецентральное масштабное Т-распределение. На все вопросы, которые у вас могут быть (процентили и т. Д.), Этот ответ T лучше отвечает. Фактически, T-тесты - это просто вопросы здравого смысла, задаваемые этим дистрибутивом. NNN-1
Нил Г

Как можно генерировать истинное нормальное распределение RV из Монте - Карло (с) и восстановить , что истинное распределение с использованием только Student's- параметров распределения? Я что-то здесь упускаю? T
Карл

@Carl Достаточной статистикой, которую я описал, были среднее значение, второй момент и количество выборок. Ваше MLE исходной нормали - это среднее значение и дисперсия (которая равна второму моменту минус среднее значение в квадрате). Количество выборок полезно, когда вы хотите делать прогнозы относительно будущих наблюдений (для которых вам нужно апостериорное предиктивное распределение).
Нил Г

Хотя байесовская перспектива является долгожданным дополнением, я нахожу это немного сложным для понимания: я ожидал обсуждения построения точечной оценки по апостериорной плотности . Похоже, вы скорее сомневаетесь в необходимости точной оценки: это то, что стоит упомянуть, но не однозначно байесовское. (Кстати, вы также должны объяснить приоры.)σ
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.