Может ли среднее значение плюс одно стандартное отклонение превышать максимальное значение?

19

Я имею среднее значение 74,10 и стандартное отклонение 33,44 для выборки с минимальным 0 и максимальным 94,33.

Мой профессор спрашивает меня, как может означать, что плюс одно стандартное отклонение превышает максимум.

Я показал ей много примеров по этому поводу, но она не понимает. Мне нужна ссылка, чтобы показать ей. Это может быть любая глава или параграф из статистической книги, в которой конкретно говорится об этом.

— Боюн Омуру
источник

Почему вы хотите добавить (или вычесть) одно стандартное отклонение от среднего значения? SD является мерой распространения данных. Возможно, вам нужна стандартная ошибка среднего?

— Восстановить Монику - Дж. Симпсон

Я не хочу добавлять или вычитать, тот, кто хочет, это мой профессор. Вот так она понимает стандартное отклонение

— Боюн Омуру

5

Интересным примером является образец (0.01,0.02,0.98,0.99). Среднее значение плюс стандартное отклонение и среднее значение минус стандартное отклонение лежат вне [0,1].

— Glen_b

Может она просто думает о нормальном распределении?

— user765195

28

Конечно, среднее значение плюс один sd может превысить самое большое наблюдение.

Рассмотрим пример 1, 5, 5, 5 -

оно имеет среднее значение 4 и стандартное отклонение 2, поэтому среднее значение + sd равно 6, что на единицу больше максимума выборки. Вот расчет в R:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

Это обычное явление. Это имеет место, когда есть множество высоких значений и хвост слева (то есть, когда есть сильная асимметрия слева и пик около максимума).

-

Та же самая возможность применима к распределению вероятностей, а не только к выборкам - среднее значение по совокупности плюс среднеквадратичное значение могут легко превышать максимально возможное значение

Вот пример плотности , которая имеет максимально возможное значение 1: $\text{beta}(10,\frac{1}{2})$

введите описание изображения здесь

В этом случае мы можем посмотреть на странице Википедии бета-дистрибутив, в котором говорится, что среднее значение:

$\operatorname{E}[X] = \frac{\alpha}{\alpha+\beta}\!$

и дисперсия:

$\operatorname{var}[X] = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\!$

(Хотя нам не нужно полагаться на Википедию, поскольку их довольно легко получить.)

Таким образом, для и мы имеем среднее значение и sd , то есть среднее значение + , больше, чем возможный максимум 1. $\alpha=10$ $\beta=\frac{1}{2}$ $\approx 0.9523$ $\approx 0.0628$ $\approx 1.0152$

То есть легко можно получить значение mean + sd, которое не может рассматриваться как значение данных .

-

Для любой ситуации, когда режим был максимальным, асимметрия режима Пирсона должна быть только чтобы среднее + sd превышало максимум. Он может принимать любое значение, положительное или отрицательное, поэтому мы видим, что это легко возможно. $<\,-1$

-

Тесно связанная проблема часто наблюдается с доверительными интервалами для биномиальной пропорции , где обычно используемый интервал, нормальный интервал аппроксимации может давать пределы за пределами . $[0,1]$

Например, рассмотрим 95,4% нормальный интервал аппроксимации для доли успешных испытаний в исследованиях Бернулли для населения (результаты равны 1 или 0, представляющим события успеха и неудачи соответственно), где 3 из 4 наблюдений равны « », а одно наблюдение - « ». $1$ $0$

Тогда верхний предел для интервала равен $\hat p + 2 \times \sqrt{\frac{1}{4}\hat p \left(1 - \hat p \right)} = \hat p + \sqrt{\hat p (1 - \hat p )} = 0.75 + 0.433=1.183$

Это просто выборочное среднее + обычная оценка sd для бинома ... и дает невозможное значение.

Обычная выборка sd для 0,1,1,1 равна 0,5, а не 0,433 (они отличаются, потому что биномиальная оценка ML стандартного отклонения соответствует делению дисперсии на а не на ) Но это не имеет значения - в любом случае среднее значение + sd превышает максимально возможную долю. $\hat p(1-\hat p)$ $n$ $n-1$

Этот факт - то, что нормальный интервал аппроксимации для бинома может давать «невозможные значения», часто отмечается в книгах и статьях. Однако вы не имеете дело с биномиальными данными. Тем не менее проблема - это среднее значение + некоторое число стандартных отклонений не является возможным значением - аналогична.

-

В вашем случае, необычное значение «0» в вашей выборке делает sd большим, чем оно опускает среднее значение, поэтому среднее + sd высокое.

введите описание изображения здесь

-

(Вместо этого вопрос был бы - по какой причине это было бы невозможно? - потому что, не зная, почему кто-то может подумать, что вообще существует проблема, к чему мы обращаемся?)

Логично, конечно, кто-то демонстрирует, что это возможно, приводя пример, где это происходит. Вы уже сделали это. Если нет объяснения, почему не должно быть иначе, что вы будете делать?

Если примера недостаточно, какое доказательство будет приемлемым?

На самом деле нет никакого смысла просто указывать на утверждение в книге, поскольку любая книга может сделать утверждение по ошибке - я вижу их все время. Нужно полагаться на прямую демонстрацию того, что это возможно, либо доказательство в алгебре (можно построить, например, из приведенного выше бета-примера *), либо числовой пример (который вы уже дали), который каждый может проверить для себя правду. ,

* whuber дает точные условия для бета-случая в комментариях.

— Glen_b - Восстановить Монику
источник

5

+1 Бета-пример - хорошая идея. Фактически, при условии, что и , любое распределение Beta будет иметь среднее значение + sd, превышающее ,

0 < β < 1

$0\lt\beta\lt 1$

α > β (1 + β) / (1 - β)

$\alpha \gt \beta(1+\beta)/(1-\beta)$

(α, β)

$(\alpha,\beta)$

1

$1$

— whuber

Позвольте мне объяснить дальше. Я ищу процент точности конкретного прибора, используемого для коррекции зубов. И этот прибор выполнил процент точности для 7 зубов следующим образом:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96. Мой профессор добавляет одно стандартное отклонение к значению и заявляет, что результат не может превышать максимальное значение, даже% 100, потому что% 100 - это максимальный процент точности, который может выполнить appliancek.

— Буюн Омуру

2

Она права, что процент> 100% не имеет смысла в вашей ситуации. Проблема заключается в том, что на самом деле неустановленная предпосылка состоит в том, что добавление одного sd к среднему значению имеет смысл в этом контексте, а если нет . Вот откуда я верю, что твоя трудность берет свое начало. Если мы поймем, откуда исходят предпосылки, это может привести к лучшему решению. Возможно, что простой факт изложен где-то в книге (хотя это тривиальное наблюдение, так что, возможно, и это не так), но я сомневаюсь, что это когда-либо будет выражено таким образом, чтобы удовлетворить ее, потому что ее ложь предпосылка является источником проблемы.

— Glen_b

1

В самом деле, мое незначительное замечание заключается в том, что это любопытство является результатом того, что стандартные отклонения представляют для сильно несимметричных распределений, а не результатом взятия образца. Но в целом я думаю, что ваш ответ отличный

— Генри

2

@tomka Я пытался помочь многим студентам в подобной должности. В конце концов я усвоил (возможно, неудивительно) эмпирическое правило, что фактически невозможно научить руководителя чему-либо через его ученика.

— Glen_b

4

Согласно неравенству Чебышева, меньше чем k ^-2 баллов может быть больше чем k стандартных отклонений. Таким образом, для k = 1 это означает, что менее 100% ваших выборок могут быть на расстоянии более одного стандартного отклонения.

Более интересно посмотреть на нижнюю границу. Ваш профессор должен быть более удивлен, что есть пункты, которые примерно на 2,5 стандартных отклонения ниже среднего. Но теперь мы знаем, что только около 1/6 вашей выборки может быть 0.

— MSalters
источник

3

Суть проблемы может заключаться в том, что ваш дистрибутив не является нормальным дистрибутивом, который предполагает стандартное отклонение. Вероятно, ваше распределение осталось искаженным , поэтому сначала нужно преобразовать ваш набор в нормальное распределение, выбрав подходящую функцию преобразования, этот процесс называется преобразованием в нормальное состояние . Одним из таких кандидатов-кандидатов в вашем случае может быть зеркальное преобразование журнала. Как только ваш набор удовлетворяет критерию нормальности, вы можете принять стандартное отклонение. Затем использовать вашу 1 или 2 $\sigma$ $\sigma$ значения вы должны преобразовать их обратно в исходное пространство данных, используя обратную функцию преобразования. Я думаю, это то, на что намекал твой профессор.

— Snives
источник

5

Это хороший вклад. Я не уверен, что SD действительно "предполагает" нормальное распределение, все же.

— gung - Восстановить Монику

3

«Подгонка распределения» и нахождение преобразования в нормальность - это разные процедуры с разными целями.

— whuber

2

$X$ $1$ $0<p<1$ $0$ $1-p$

Е (Икс) знак равно п, S Е (Икс) знак равно \sqrt{п (1 - п)}

$E(X) = p,\;\; SE(X) = \sqrt {p(1-p)}$

И мы хотим

Е (Икс) + S Е (Икс) > 1 \Rightarrow п + \sqrt{п (1 - п)} > 1

$E(X)+ SE(X) > 1 \Rightarrow p +\sqrt {p(1-p)} >1$

\Rightarrow \sqrt{п (1 - п)} > (1 - п)

$\Rightarrow \sqrt {p(1-p)} > (1-p)$

Квадрат с обеих сторон, чтобы получить

п (1 - п) > (1 - п)^{2} \Rightarrow п > 1 - п \Rightarrow п > \frac{1}{2}

$p(1-p) > (1-p)^2 \Rightarrow p > 1-p \Rightarrow p > \frac 12$

$p>1/2$ $E(X)+ SE(X) > \max X$

$p=0.7$ $1$

$U(a,b)$ $E(U)+ SE(U) < \max U=b$

— Алекос Пападопулос
источник