Я новичок в статистике, так что вы, ребята, не могли бы вы мне помочь?
Мой вопрос заключается в следующем: что на самом деле означает объединенная дисперсия ?
Когда я ищу формулу для объединенной дисперсии в Интернете, я нахожу много литературы, использующей следующую формулу (например, здесь: http://math.tntech.edu/ISR/Maturgical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Но что это на самом деле рассчитывает? Потому что, когда я использую эту формулу для вычисления моей объединенной дисперсии, это дает мне неправильный ответ.
Например, рассмотрим эти «родительские образцы»:
Дисперсия этой родительской выборки равна , а ее среднее значение равно .
Теперь предположим, что я разбил этот родительский образец на два подэлемента:
- Первый суб-образец 2,2,2,2,2 со средним и дисперсия .
- Второй подвыбор составляет 8,8,8,8,8 со средним значением и дисперсией S 2 2 = 0 .
Теперь ясно, что с помощью приведенной выше формулы для вычисления дисперсии пула / родителя этих двух подвыборок будет получено ноль, поскольку и S 2 = 0 . Так что же на самом деле рассчитывает эта формула ?
С другой стороны, после некоторого длительного вывода я нашел формулу, которая дает правильную дисперсию пула / родителя:
В приведенной выше формуле, и д 2 = ¯ х 2 - ˉ х р .
Я нашел похожую формулу с моей, например, здесь: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, а также в Википедии. Хотя я должен признать, что они не похожи на мои.
Итак, еще раз, что на самом деле означает объединенная дисперсия? Разве это не должно означать отклонение родительской выборки от двух подвыборок? Или я тут совершенно не прав?
Заранее спасибо.
РЕДАКТИРОВАТЬ 1: Кто-то говорит, что мои два подвыборки выше патологические, так как они имеют нулевую дисперсию. Ну, я мог бы привести другой пример. Рассмотрим этот родительский образец:
Дисперсия этой родительской выборки составляет , а ее среднее значение равно ˉ x p = 25,5 .
Теперь предположим, что я разбил этот родительский образец на два подэлемента:
- Первый подвыбор составляет 1,2,3,4,5 со средним значением и дисперсией S 2 1 = 2,5 .
- Второй суб-образец 46,47,48,49,50 со средним и дисперсия S 2 2 = 2,5 .
Теперь, если вы используете «формулу литературы» для вычисления объединенной дисперсии, вы получите 2,5, что совершенно неверно, потому что родительская / объединенная дисперсия должна быть 564,7. Вместо этого, если вы используете «мою формулу», вы получите правильный ответ.
Пожалуйста, поймите, я использую здесь крайние примеры, чтобы показать людям, что формула действительно неверна. Если я использую «нормальные данные», которые не имеют большого количества вариаций (крайних случаев), то результаты этих двух формул будут очень похожи, и люди могут отклонить разницу из-за ошибки округления, а не потому, что сама формула неправильно.