Сегодня я преподавал начальный класс статистики, и один студент подошел ко мне с вопросом, который я перефразирую здесь: «Почему стандартное отклонение определяется как квадратичная дисперсия, а не как квадрат суммы квадратов над N?»
Мы определяем дисперсию населения:
И стандартное отклонение: .
Интерпретация, которую мы можем дать состоит в том, что она дает среднее отклонение единиц в популяции от среднего значения по .
Однако, в определении sd мы делим квадрат суммы суммы квадратов на . Вопрос, который поднимает студент, заключается в том, почему мы не делимвместо этогоплощадь суммы квадратов наТаким образом, мы приходим к конкурирующей формуле:
Я думал, что этот вопрос не глупый. Я хотел бы дать ответ студенту, который идет дальше, чем сказать, что SD определяется как sqrt дисперсии, которая является среднеквадратичным отклонением. Иными словами, почему студент должен использовать правильную формулу и не следовать ее идее?
Этот вопрос относится к более старой теме и ответам, представленным здесь . Ответы там идут в трех направлениях:
- - среднеквадратическое отклонение (RMS), а не «типичное» отклонение от среднего значения (т. е. ). Таким образом, это определяется по-разному.
- Обладает хорошими математическими свойствами.
- Кроме того, sqrt вернет «единицы» в их первоначальный масштаб. Однако это также относится и к , который вместо этого делится на N.
Оба пункта 1 и 2 являются аргументами в пользу sd как RMS, но я не вижу аргумента против использования . Какие были бы хорошие аргументы, чтобы убедить учащихся начального уровня в использовании среднего RMS-расстояния σ от среднего?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Может ли быть так, что то, что находится внутри скобок, как-то потеряно в вопросе?