Значение, которое увеличивает стандартное отклонение


12

Я озадачен следующим утверждением:

«Чтобы увеличить стандартное отклонение набора чисел, вы должны добавить значение, которое больше, чем одно стандартное отклонение от среднего значения»

Что является доказательством этого? Я, конечно, знаю, как мы определяем стандартное отклонение, но эта часть мне как-то не хватает. Любые комментарии?


1
Вы пытались отработать алгебру?
Алекос Пападопулос

Да, у меня есть. Я вычел выборочную дисперсию n значений из дисперсии n + 1 значений, и я потребовал, чтобы разница была больше нуля. И все же я не могу понять это.
JohnK

3
Один из самых простых способов - дифференцировать алгоритм Уэлфорда по новому значению а затем интегрировать, чтобы показать, что если введение увеличивает дисперсию, то где является средним значением первых значений, а является их оценкой дисперсии. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber

Хорошо, но может ли это быть показано простой алгеброй? Мои знания в области статистики не настолько развиты.
JohnK

@JohnK, не могли бы вы поделиться источником цитаты?
Пе Дро

Ответы:


20

Для любых чисел со средним значением , дисперсия определяется как Применение к данному набору из чисел которые для удобства изложения мы берем среднее значение , имеем y 1 , y 2 , , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)пх1,х2,...хпˉх=0σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0 xn+11
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
Если теперь мы добавим новое наблюдение к этому набору данных, то новое среднее значение этого набора данных будет то время как новая дисперсия Soдолжен быть больше чемxn+1σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
| хн+1| σ
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1| xn+1ˉxσσ1+1n или, в более общем смысле, должен отличаться от среднего значения исходных данных, установленного более чем на , чтобы расширенный набор данных имел большую дисперсию, чем исходный набор данных. См. Также ответ Рэя Купмана, в котором указано, что новая дисперсия больше, равна или меньше, чем исходная дисперсия в соответствии с отличается от среднего более, чем точно, или меньше, чем .xn+1x¯ xn+1σσ1+1nxn+1σ1+1n

5
+1 Наконец кто - то получает это право ... ;-) Заявление будет доказано , является правильным; это просто не туго. Кстати, вы также можете выбрать свои единицы измерения, чтобы сделать , что еще больше упрощает вычисление, сокращая его примерно до двух строк. σ2=1
whuber

Я предлагаю вам использовать S вместо сигмы в первом наборе уравнений и спасибо за вывод. Это было приятно знать :)
Теоден

3

Загадочное утверждение дает необходимое, но недостаточное условие для увеличения стандартного отклонения. Если старый размер выборки равен , старое среднее значение равно , старое стандартное отклонение равно , а к данным добавляется новая точка , то новое стандартное отклонение будет меньше, равно или больше соответствии с какменьше, равно или больше .м с х с | х - м | с nmsxs|xm|s1+1/n


1
У вас есть доказательства под рукой?
JohnK

2

Оставляя в стороне алгебру (которая также работает), подумайте об этом следующим образом: стандартное отклонение - это квадратный корень из дисперсии. Дисперсия - это среднее значение квадратов расстояний от среднего. Если мы добавим значение, которое ближе к среднему значению, чем это, дисперсия будет уменьшаться. Если мы добавим значение, которое находится дальше от среднего значения, оно будет расти.

Это верно для любого среднего значения, которые неотрицательны. Если вы добавите значение, которое выше среднего, среднее значение возрастет. Если вы добавите значение, которое меньше, оно уменьшается.


Я бы тоже хотел увидеть строгое доказательство. Хотя я понимаю принцип, я озадачен тем фактом, что значение должно быть как минимум на 1 отклонение от среднего. Почему именно 1?
JohnK

Я не вижу, что смущает. Дисперсия средняя. Если вы добавляете что-то большее, чем среднее (то есть более 1 SD), оно увеличивается. Но я не один для официальных доказательств
Питер Флом - Восстановить Монику

Это может быть больше среднего на 0,2 стандартных отклонения. Почему бы тогда не увеличить?
JohnK

Нет, не больше среднего значения данных, больше дисперсии, которая является средним квадратом расстояний.
Питер Флом - Восстановить Монику

4
Это сбивает с толку, потому что включение нового значения меняет среднее значение, поэтому все остатки изменяются. Возможно, что даже когда новое значение далеко от старого среднего, его вклад в SD может быть компенсирован уменьшением суммы квадратов остатков других значений. Это одна из многих причин, по которым полезны строгие доказательства: они обеспечивают не только безопасность знаний, но и понимание (и даже новую информацию). Например, доказательство покажет, что вам нужно добавить новое значение, которое строго дальше, чем одно SD от среднего значения, чтобы увеличить SD.
whuber

2

Я начну с алгебры, но не буду полностью. Сначала стандартизируйте ваши данные, вычтя среднее значение и разделив на стандартное отклонение:Обратите внимание, что если находится в пределах одного стандартного отклонения от среднего значения, находится в диапазоне от -1 до 1. Z будет равно 1, если точно на расстоянии 1 с от среднего. Затем посмотрите на ваше уравнение для стандартного отклонения: Что происходит с если находится между -1 и 1?xZxσ=

Z=xμσ.
xZx σZN
σ=i=1NZi2N1
σZN

Число, абсолютное значение которого меньше 1, в квадрате оно также будет меньше 1 в абс. значение. Но что я не понимаю, так это то, что даже если Z_N попадает в эту категорию, мы добавляем положительное значение к σ, поэтому не должно ли оно увеличиваться?
JohnK

Да, вы добавляете положительное значение, но оно будет меньше вашего среднего отклонения от среднего и, следовательно, уменьшит сигму. Возможно, было бы более разумно рассматривать значение как . ZN+1
wcampbell

1
1) Не забывайте, что когда вы добавляете это значение, вы также увеличиваете на 1. 2) Вы не добавляете это значение в , вы добавляете его в . σ Z 2 iNσZi2
jbowman

Именно то, что я пытался выразить!
wcampbell

Это не так просто: в этом ответе вы вычислили SD, как если бы новое значение уже было частью набора данных. Вместо этого необходимо стандартизировать относительно SD и среднего значения только первых значений, а не всех. N - 1ZiN1
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.