У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных:
Вот гистограмма данных:
Судя по источнику данных, я решил, что это будет соответствовать распределению Пуассона. Тем не менее, средняя ≠ дисперсия и гистограмма сильно взвешены влево. Кроме того, я запустил goodfit
тест в R и получил:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Метод максимального правдоподобия также дал p-значение = 0. Предполагая, что нулевая гипотеза такова: данные соответствуют распределению Пуассона (в документации это не указано), тогда goodfit
тест говорит, что мы должны отклонить нулевую гипотезу, поэтому данные не соответствует распределению Пуассона.
Правильный ли этот анализ? Если да, то как вы думаете, какой дистрибутив будет соответствовать этим данным?
Моя конечная цель состоит в том, чтобы сравнить среднее количество действий между двумя образцами, чтобы увидеть, отличаются ли средства; проверка распространения даже необходима? Насколько я понимаю, типичные тесты (z-, t-, тесты) не работают для распределений Пуассона. Какой тест я должен использовать, если данные действительно распределены по Пуассону?