У меня есть набор данных наблюдений за образцами, которые хранятся в виде отсчетов в пределах диапазона. например:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Теперь найти среднюю оценку из этого довольно просто. Просто используйте среднее значение (или медиану) каждого бина диапазона в качестве наблюдения и счетчик в качестве веса и найдите средневзвешенное значение:
Для моего теста это дает мне 53,82.
Мой вопрос сейчас заключается в том, как правильно найти стандартное отклонение (или дисперсию)?
В процессе поиска я нашел несколько ответов, но я не уверен, что, если таковые имеются, действительно подходит для моего набора данных. Мне удалось найти следующую формулу как по другому вопросу здесь, так и по случайному документу NIST .
Что дает стандартное отклонение 8,35 для моего теста. Тем не менее, статья в Википедии о взвешенных средних дает обе формулы:
а также
Которые дают стандартные отклонения 8,66 и 7,83, соответственно, для моего теста.
Обновить
Спасибо @whuber, который предложил заглянуть в Исправления Шеппарда, и ваши полезные комментарии, связанные с ними. К сожалению, мне трудно понять, какие ресурсы я могу найти по этому поводу (и я не могу найти хороших примеров). Напомним, однако, что я понимаю, что следующее является предвзятой оценкой дисперсии:
Я также понимаю, что большинство стандартных поправок на смещение относятся к прямым случайным выборкам нормального распределения. Поэтому я вижу две потенциальные проблемы для меня:
- Это случайные сэмплы (я уверен, что именно здесь появляются поправки Шеппарда).
- Неизвестно, предназначены ли данные для нормального распределения (поэтому я предполагаю, что нет, что, я уверен, делает недействительными исправления Шеппарда).
Итак, мой обновленный вопрос: Каков подходящий метод для обработки смещения, налагаемого «простой» формулой взвешенного стандартного отклонения / дисперсии для ненормального распределения? В частности, в отношении связанных данных.
Примечание: я использую следующие термины:
- - взвешенная дисперсия
- - количество наблюдений. (т.е. количество бинов)
- - число ненулевых весов. (т.е. количество бинов с количеством)
- являются весами (то есть счет)
- - наблюдения. (т.е. мусорное ведро означает)
- - взвешенное среднее.