Может ли стандартное отклонение неотрицательных данных превышать среднее значение?


15

У меня есть триангулированные трехмерные сетки. Статистика для областей треугольника:

  • Мин 0,000
  • Макс 2341,141
  • Среднее 56,317
  • Стандартное отклонение 98.720

Итак, означает ли это что-нибудь особенно полезное в отношении стандартного отклонения или предполагает наличие ошибок при его расчете, когда цифры работают, как указано выше? Районы, безусловно, далеки от нормального распределения.

И, как кто-то упомянул в одном из своих ответов ниже, меня поразило то, что потребовалось только одно SD из среднего значения, чтобы числа стали отрицательными и, таким образом, вышли за пределы правового поля.

Благодарность


4
В наборе данных {2,2,2,202} стандартное отклонение выборки равно 100 тогда как среднее значение 52 довольно близко к тому, что вы наблюдаете.
whuber

5
Для знакомого (некоторым) примера средний результат того, что кто-то играет в блэкджек в течение одного часа, может быть отрицательным 25 долларов, но со стандартным отклонением, скажем, 100 долларов (цифры для иллюстрации). Этот большой коэффициент вариации позволяет обмануть кого-то, думая, что он лучше, чем он есть на самом деле.
Майкл МакГоуэн

Последующий вопрос является весьма информативным, тоже: он ставит оценки на SD набора (неотрицательные данные), учитывая среднее.
whuber

Ответы:


9

Ничто не говорит о том, что стандартное отклонение должно быть меньше или больше среднего. Учитывая набор данных, вы можете сохранить среднее значение таким же, но изменить стандартное отклонение на произвольную степень, добавляя / вычитая положительное число соответствующим образом .

Используя пример набора данных @ whuber из его комментария к вопросу: {2, 2, 2, 202}. Как утверждает @whuber: среднее значение равно 52, а стандартное отклонение равно 100.

Теперь возмущаем каждый элемент данных следующим образом: {22, 22, 22, 142}. Среднее значение по-прежнему составляет 52, но стандартное отклонение составляет 60.


1
Если вы добавляете к каждому элементу, вы меняете параметр местоположения , то есть среднее значение. Вы изменяете дисперсию (т.е. стандартное отклонение) путем умножения на коэффициент масштабирования (при условии, что ваше среднее значение равно нулю).
Дирк Эддельбюттель

@DirkEddelbuettel Вы правы. Я исправил ответ и привел пример для ясности.
Varty

2
Я не следую примеру. Новый набор данных явно не получен из оригинала путем «добавления или вычитания положительного числа» из каждого из исходных значений.
whuber

3
Я не могу редактировать это, потому что я не знаю, что вы пытаетесь сказать. Если вы можете произвольно добавить отдельные значения к каждому из чисел в наборе данных, вы просто меняете один набор из значений на совершенно другой набор из n значений. Я не понимаю, как это относится к вопросу или даже к вашему вступительному абзацу. Я думаю, что любой согласится, что такие изменения могут изменить среднее значение и SD, но это не говорит нам, почему SD набора неотрицательных данных может быть любым положительным кратным его среднего значения. nn
whuber

2
Вы правы: цитируемое утверждение мое и оно не фигурирует в вашем ответе. (Тем не менее, это правильно и актуально. :-) Я пытаюсь донести одну мысль: простая возможность изменить SD при сохранении среднего значения не отвечает на вопрос. Насколько можно изменить SD (сохраняя все данные неотрицательными)? Другой момент, который я попытался сделать, заключается в том, что ваш пример не иллюстрирует общий, предсказуемый процесс внесения таких изменений в данные. Это делает его произвольным, что не очень помогает.
whuber

9

Конечно, это независимые параметры. Вы можете установить простые исследования в R (или другой инструмент, который вы предпочитаете).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Точно так же вы стандартизируете данные, которые вы просматриваете, вычитая среднее значение и деля на стандартное отклонение.

Редактировать И, следуя идее @ whuber, вот один набор бесконечных наборов данных, которые приближаются к вашим четырем измерениям:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Я не уверен, что понимаю вашу мысль. Они не являются абсолютно независимыми, так как можно изменить среднее значение, возмущая одну точку данных и, таким образом, изменить также стандартное отклонение. Я что-то неправильно истолковал?
Varty

Отмечая, что области треугольника не могут быть отрицательными (что подтверждается минимальным значением, указанным в вопросе), можно надеяться на пример, состоящий исключительно из неотрицательных чисел.
whuber

(+1) Повторное редактирование: попробуйте использовать 536 копий 52.15 :-).
whuber

Хороший повтор 536 повторений. Должен был сделать бинарный поиск :)
Дирк Эддельбюттель

@Dirk "это независимые параметры", рассмотрим случай, когда - бернулли. дисперсия и среднее не являются независимыми: v a r ( X ) = p ( 1 - p ) . Рассмотрим случайную величину 100 > Х > 0 , максимально возможная дисперсия ( 50 ) 2 Теперь , если вы вынуждаете среднее равным единице (то есть снизить , чем 50 ) максимальная дисперсия не может быть больше , чем 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . Есть больше примеров ограниченных переменных в природе, чем гауссиан? 99/100(1)2+(1/100)992
Робин Жирар

7

Я не уверен, почему @ Энди удивлен таким результатом, но я знаю, что он не одинок. Я также не уверен, что нормальность данных связана с тем фактом, что SD выше среднего. Довольно просто сгенерировать набор данных, который обычно распространяется в этом случае; действительно, стандартная нормаль имеет среднее значение 0, sd = 1. Было бы трудно получить нормально распределенный набор данных всех положительных значений с sd> mean; на самом деле, это не должно быть возможным (но это зависит от размера выборки и того, какой тест нормальности вы используете ... с очень маленькой выборкой происходят странные вещи)

Однако, как только вы удалите условие нормальности, как это сделал @Andy, нет причины, по которой sd должно быть больше или меньше среднего, даже для всех положительных значений. Единственный выброс сделает это. например

x <- runif (100, 1, 200) x <- c (x, 2000)

дает среднее значение 113 и SD 198 (в зависимости от семян, конечно).

Но большой вопрос, почему это удивляет людей.

Я не преподаю статистику, но мне интересно, как насчет того, как преподается статистика, делает это понятие распространенным.


Я никогда не изучал статистику, только пару единиц инженерной математики, и это было тридцать лет назад. Другие люди на работе, которые, как мне показалось, лучше понимали область, говорили о представлении неверных данных «числом стандартных разработчиков вдали от среднего». Таким образом, речь идет скорее о том, «как обычно упоминается std dev», чем о «научении» :-)
Энди Дент

@ Если большое число стандартных значений находится вдали от среднего значения, это просто означает, что переменная существенно не отличается от нуля. Тогда это зависит от контекста (был ли смысл случайной переменной), но в некоторых случаях вы можете удалить их?
Робин Жирар

@ Питер, посмотрите мой комментарий к Дирку, это может объяснить «сюрприз» в некотором контексте. На самом деле, я какое-то время учил статистику и никогда не видел сюрприза, о котором вы говорите. Во всяком случае, я предпочитаю студента, который удивлен всем, я уверен, что это хорошая эпистемологическая позиция (лучше, чем обморок абсолютно без удивления :)).
Робин Жирар

@AndyDent «плохие» данные, для меня, означают данные, которые записаны неправильно. Данные, далекие от среднего, являются выбросами. Например, предположим, что вы измеряете рост людей. Если вы измеряете меня и записываете мой рост как 7'5 'вместо 5'7, это плохие данные. Если вы измеряете Яо Мина и записываете его рост как 7'5 ", это необычные, но не плохие данные. Независимо от того, что это очень далеко от среднего значения (что-то вроде 6 sds)
Питер Флом - Восстановить Монику

@Peter Florn, В нашем случае у нас есть выбросы, от которых мы хотим избавиться, потому что они представляют собой треугольники, которые вызовут алгоритмические проблемы при обработке меша. Они могут даже быть «плохими данными» в вашем смысле, если они были созданы неисправными сканирующими устройствами или преобразованием из других форматов :-) Другие формы могут иметь выбросы, которые на законных основаниях далеки от среднего значения, но не представляют проблемы. Одна из самых интересных вещей в этих данных - у нас «плохие данные» на обоих концах, но маленькие не далеки от среднего.
Энди Дент

6

Просто добавив общую точку , что, с точки зрения исчисления, и х 2 F ( х ) г х связаны неравенством Иенсена , предполагая , что существуют оба интеграла, х 2 F ( х ) д х { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Учитывая это общее неравенство, ничто не мешает дисперсии становиться сколь угодно большой. Наблюдайтеt-распределение Стьюдентас ν степенями свободы, X T ( ν , µ , σ ) и возьмем Y = | X | второй момент которого совпадает со вторым моментом X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X когдаν>2. Таким образом, он уходит в бесконечность, когдаνуменьшается до2, а среднее значениеYостается конечным, покаν>1.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
Обратите внимание на явное ограничение неотрицательных значений в вопросе.
whuber

Пример «Студент» легко переводится в пример «абсолютное значение-студента-т-распределения» ...
Сиань,

1
Но это меняет суть, конечно :-). Вопрос касается связи между SD и средним (см. Его название). Я не говорю, что ты не прав; Я просто (неявно) предполагаю, что ваш ответ мог бы, при небольшом труде, более непосредственно ответить на вопрос.
whuber

@whuber: хорошо, я отредактировал вышеупомянутое, чтобы рассмотреть абсолютное значение (я также вывел среднее значение абсолютного значения, но <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> это довольно неловко </ a> ...)
Сиань,

3

Возможно, ОП удивляется, что среднее значение - 1 СО - отрицательное число (особенно там, где минимум равен 0).

Вот два примера, которые могут прояснить.

Предположим, у вас есть класс из 20 первоклассников, где 18 - 6 лет, 1 - 5, а 1 - 7. Теперь добавьте 49-летнего учителя. Средний возраст - 8,0, а стандартное отклонение - 9,402.

Вы можете подумать: одно стандартное отклонение для этого класса колеблется от -1,402 до 17,402 года. Вы можете быть удивлены, что SD включает отрицательный возраст, который кажется необоснованным.

Вам не нужно беспокоиться об отрицательном возрасте (или 3D-графики, размер которых меньше минимума 0,0). Интуитивно понятно, что у вас все еще есть две трети данных в пределах 1 SD от среднего значения. (На самом деле у вас есть 95% данных в пределах 2 SD от среднего.)

Когда данные получат ненормальное распределение, вы увидите удивительные результаты, подобные этому.

Второй пример В своей книге « Обманутый случайностью» Нассим Талеб проводит мысленный эксперимент стрелка с завязанными глазами, стреляющего в стену малой длины. Лучник может стрелять от +90 градусов до -90 градусов.

Время от времени лучник будет стрелять стрелой, параллельной стене, и никогда не попадет. Рассмотрим, как далеко стрелка не попадает в цель, как распределение чисел. Стандартное отклонение для этого сценария будет постоянным.


Правило около 2/3 данных в пределах 1 SD от среднего значения для нормальных данных. Но данные классной комнаты явно ненормальны (даже если они проходят некоторый тест на нормальность из-за небольшого размера выборки). Пример Талеба ужасен. Это пример плохой работы переменной. Взятые как есть, и среднее значение, и SD будут бесконечными. Но это чепуха. «Как далеко стрела промахивается» - для меня это расстояние. Стрела, как бы она ни стреляла, приземлится куда-нибудь. Измерьте расстояние оттуда до цели. Нет больше бесконечности.
Питер Флом - Восстановить Монику

1
Да, OP был достаточно удивлен, когда впервые увидел среднее значение - 1 SD стал отрицательным, что я написал целый новый набор модульных тестов, используя данные из Excel, чтобы подтвердить, что по крайней мере мой алгоритм вычисляет те же значения. Потому что Excel просто должен быть авторитетным источником, верно?
Энди Дент

@Peter Правило 2/3 (часть правила 68-95-99.7%) подходит для огромного количества наборов данных, многие из которых ненормальные и даже для умеренно искаженных. (Правило довольно хорошо для симметричных наборов данных.) Неконечность SD и среднее не являются «глупостью». Пример Талеба - одна из немногих необдуманных ситуаций, когда распределение Коши четко управляет процессом генерации данных. Бесконечность SD происходит не от возможности пропустить стену, а от распределения реальных попаданий.
whuber

1
@whuber Я знал о твоем первом замечании, которое является хорошим. Я не согласен с твоим вторым пунктом о Талебе. Это кажется мне еще одним надуманным примером.
Питер Флом - Восстановить Монику

3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVar[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

x¯σx[0,c]nn1

σxx¯(cx¯)c2
x¯>c/2σxσx=c/20cσx<x¯x¯<c/2σxmin{x¯,cx¯}{X<0}{X>c}

4
Я не думаю, что вопрос в том, является ли набор данных нормальным; его ненормальность оговорена. Вопрос состоит в том, могла ли быть допущена некоторая ошибка при вычислении стандартного отклонения, потому что ОП удивляется, что даже в этом явно ненормальном наборе данных SD намного больше среднего. Если ошибка не была допущена, что можно сделать из такого большого коэффициента вариации ?
whuber

9
Любой ответ или комментарий, в котором утверждается, что среднее значение и sd набора данных не связаны, является явно неправильным, поскольку оба являются функциями одних и тех же данных, и оба будут меняться при изменении одного значения данных. Это замечание несет некоторые отголоски подобного звучащего утверждения, которое является верным (но не очень уместным для текущего вопроса); а именно, что среднее значение выборки и выборка SD данных, взятых независимо от нормального распределения, независимыми (в вероятностном смысле).
whuber

1

По-видимому, вы подразумеваете, что вы подразумеваете интервал предсказания, который ограничивал бы появление новых наблюдений. Суть в том, что вы должны постулировать статистическое распределение, соответствующее тому факту, что ваши наблюдения (области треугольников) должны оставаться неотрицательными. Нормальный не поможет, но нормальный лог может быть просто нормальным. В практическом плане взять журнал наблюдаемых областей, вычислить среднее и стандартное отклонение, сформировать интервал прогнозирования с использованием нормального распределения и, наконец, оценить экспоненту для нижнего и верхнего пределов - преобразованный интервал прогнозирования не будет симметричным вокруг среднее и гарантированно не опустится ниже нуля. Это то, что я думаю, на самом деле имел в виду ФП.


0

Фелипе Невински указывает на реальную проблему здесь. Нет смысла говорить в терминах нормального распределения, когда распределение явно не является нормальным распределением. Все положительные значения с относительно небольшим средним и относительно большим стандартным отклонением не могут иметь нормального распределения. Итак, задача состоит в том, чтобы выяснить, какой тип распределения соответствует ситуации. Оригинальный пост предполагает, что нормальное распределение (или некоторые такие) было явно на виду. В противном случае отрицательные числа не появятся. Регистрируйся нормально, Рэйли, Вейбулл приходит на ум ... Я не знаю, но удивляюсь, что может быть лучше в таком случае?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.