Конечно, среднее значение плюс один sd может превысить самое большое наблюдение.
Рассмотрим пример 1, 5, 5, 5 -
оно имеет среднее значение 4 и стандартное отклонение 2, поэтому среднее значение + sd равно 6, что на единицу больше максимума выборки. Вот расчет в R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
Это обычное явление. Это имеет место, когда есть множество высоких значений и хвост слева (то есть, когда есть сильная асимметрия слева и пик около максимума).
-
Та же самая возможность применима к распределению вероятностей, а не только к выборкам - среднее значение по совокупности плюс среднеквадратичное значение могут легко превышать максимально возможное значение
Вот пример плотности , которая имеет максимально возможное значение 1:бета ( 10 , 12)
В этом случае мы можем посмотреть на странице Википедии бета-дистрибутив, в котором говорится, что среднее значение:
Е[ X] = αα + β
и дисперсия:
вар[ X] = α β( α + β)2( α + β+ 1 )
(Хотя нам не нужно полагаться на Википедию, поскольку их довольно легко получить.)
Таким образом, для и мы имеем среднее значение и sd , то есть среднее значение + , больше, чем возможный максимум 1.β = 1α = 10 ≈0,9523≈0,0628≈1,0152β= 12≈ 0,9523≈ 0,0628≈ 1.0152
То есть легко можно получить значение mean + sd, которое не может рассматриваться как значение данных .
-
Для любой ситуации, когда режим был максимальным, асимметрия режима Пирсона должна быть только чтобы среднее + sd превышало максимум. Он может принимать любое значение, положительное или отрицательное, поэтому мы видим, что это легко возможно.<- 1
-
Тесно связанная проблема часто наблюдается с доверительными интервалами для биномиальной пропорции , где обычно используемый интервал, нормальный интервал аппроксимации может давать пределы за пределами .[ 0 , 1 ]
Например, рассмотрим 95,4% нормальный интервал аппроксимации для доли успешных испытаний в исследованиях Бернулли для населения (результаты равны 1 или 0, представляющим события успеха и неудачи соответственно), где 3 из 4 наблюдений равны « », а одно наблюдение - « ».010
Тогда верхний предел для интервала равенп^+ 2 × 14п^( 1 - р^)---------√= р^+ р^( 1 - р^)-------√= 0,75 + 0,433 = 1,183
Это просто выборочное среднее + обычная оценка sd для бинома ... и дает невозможное значение.
Обычная выборка sd для 0,1,1,1 равна 0,5, а не 0,433 (они отличаются, потому что биномиальная оценка ML стандартного отклонения соответствует делению дисперсии на а не на ) Но это не имеет значения - в любом случае среднее значение + sd превышает максимально возможную долю.пп-1п^( 1 - р^)Nn - 1
Этот факт - то, что нормальный интервал аппроксимации для бинома может давать «невозможные значения», часто отмечается в книгах и статьях. Однако вы не имеете дело с биномиальными данными. Тем не менее проблема - это среднее значение + некоторое число стандартных отклонений не является возможным значением - аналогична.
-
В вашем случае, необычное значение «0» в вашей выборке делает sd большим, чем оно опускает среднее значение, поэтому среднее + sd высокое.
-
(Вместо этого вопрос был бы - по какой причине это было бы невозможно? - потому что, не зная, почему кто-то может подумать, что вообще существует проблема, к чему мы обращаемся?)
Логично, конечно, кто-то демонстрирует, что это возможно, приводя пример, где это происходит. Вы уже сделали это. Если нет объяснения, почему не должно быть иначе, что вы будете делать?
Если примера недостаточно, какое доказательство будет приемлемым?
На самом деле нет никакого смысла просто указывать на утверждение в книге, поскольку любая книга может сделать утверждение по ошибке - я вижу их все время. Нужно полагаться на прямую демонстрацию того, что это возможно, либо доказательство в алгебре (можно построить, например, из приведенного выше бета-примера *), либо числовой пример (который вы уже дали), который каждый может проверить для себя правду. ,
* whuber дает точные условия для бета-случая в комментариях.