Если не Пуассон, то что это за распределение?


11

У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных:

Range0772Mean18.2Variance2791Number of observations696

Вот гистограмма данных: гистограмма действия

Судя по источнику данных, я решил, что это будет соответствовать распределению Пуассона. Тем не менее, средняя ≠ дисперсия и гистограмма сильно взвешены влево. Кроме того, я запустил goodfitтест в R и получил:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Метод максимального правдоподобия также дал p-значение = 0. Предполагая, что нулевая гипотеза такова: данные соответствуют распределению Пуассона (в документации это не указано), тогда goodfitтест говорит, что мы должны отклонить нулевую гипотезу, поэтому данные не соответствует распределению Пуассона.

Правильный ли этот анализ? Если да, то как вы думаете, какой дистрибутив будет соответствовать этим данным?

Моя конечная цель состоит в том, чтобы сравнить среднее количество действий между двумя образцами, чтобы увидеть, отличаются ли средства; проверка распространения даже необходима? Насколько я понимаю, типичные тесты (z-, t-, тесты) не работают для распределений Пуассона. Какой тест я должен использовать, если данные действительно распределены по Пуассону?χ2


Вы уже пробовали отрицательный бином? Это помогло?
Рик

@Richard, я пробовал отрицательный бином, и это не подходило. Спасибо за предложения, хотя. Поскольку я не мог понять, что это за распределение, я решил проигнорировать его и перейти к непараметрическому тесту, U-критерию Манна-Уитни.
Dcook

Еще одно замечание для Нег Бин. В en.wikipedia.org/wiki/Negative_binomial_distribution вы видите формулу для среднего значения и дисперсии, и это . Такой будет иметь какой-либо смысл? Если нет, то есть еще больше доказательств того, что нег бин не является хорошей моделью здесь (если мы верим в оценки момента). pmean/variance=1pp
Рик

Я не думаю, что концепция суда Бернулли применима в моем случае. Там нет понятия успеха или неудачи; субъекты либо выполняют интересующее действие, либо нет. Они не пытаются и терпят неудачу. Поэтому идея вероятности успеха не имеет смысла. Если суд не является единицей времени. Но тогда ничто не мешает субъекту выполнить несколько действий в этот период времени.
Dcook

Вы знаете, как лучше всего интерпретировать ваши данные. Я просто хотел напомнить вам, что neg.bin. возникает как смесь Пуассона (если следует гамма-распределению. Таким образом, можно интерпретировать так же, как и в случае Пуассона. Но я не хочу заставлять вас :). Еще один комментарий: если субъект может выполнить несколько действий в один момент времени: разве это не может быть Compound Poisson / NegBin? Пожалуйста, скажите мне, если вы хотите больше замечаний по этому поводу. lmabda
Рик

Ответы:


8

Если дисперсия больше среднего, это называется чрезмерной дисперсией. Естественной моделью для этого является отрицательное биномиальное распределение. Это также можно рассматривать как распределение Пуассона, где лямбда-параметр следует гамма-распределению. Первым и легким шагом может быть подбор отрицательного биномиального распределения.


5

Если ваши необработанные данные не похожи на распределение Пуассона, значит, вы что-то упустили. Возможно, количество действий зависит от температуры, поэтому в жаркие дни люди делают меньше вещей. Тогда изменение температуры в течение периода обучения повлияет на распределение и сделает его не пуассоновским.

Тем не менее, число действий каждый день может быть пуассоновским со средним значением, зависящим от температуры. Если у вас есть температура каждый день, то вы можете выполнить GLM, регрессируя число действий как переменную Пуассона, в зависимости от температуры. Если это подходит, работа сделана.

Если у вас нет возможных объяснительных переменных, то все, что вы можете сказать, это «что-то еще происходит - число действий не из независимых выборок Пуассона» - то есть отвергнуть вашу нулевую гипотезу.

Существуют тесты без распространения, которые могут сравнивать парные наблюдения с помощью ранжирования и так далее. Обычно они выполняют большое количество перестановок и вычисляют статистику теста ...


4

Еще одна вещь: вы должны исследовать выбросы в данных подсчета тоже. У вас есть один счет на 400-й и затем ничего до 800-й. Это вряд ли подойдет ни одной из распространенных моделей.


1

Похоже, вы подсчитываете число нулевых событий - если это так, то вы можете рассмотреть модель ZIP (или барьер) - обратитесь к обзору моделей регрессии для данных подсчета в R Zeileis et al.

Подводя итог, можно сказать, что эти методы моделируют нулевые значения отдельно от остальных значений, которые могут быть полезны в вашем случае.

См. psclПакет zeroinfl()и hurdle()функции и.


1

Я подозреваю, что ваша гистограмма обманчива. Если у вас есть чуть более 300 наблюдений, равномерно распределенных по всему диапазону 0-50, примерно 320 равномерно распределенных по всему диапазону 50-100 и 50 или более выше 100, ваше среднее значение должно быть значительно больше 18,2.

Если данные в диапазоне 0-50 не распределены равномерно, а сконцентрированы около нуля, то удивительно видеть больше в диапазоне 50-100, чем в диапазоне 0-50.

Возможно, у вас есть смесь распределений. Я сомневаюсь, что кто-то может многое сделать с этим без фактических 696 наблюдений и особенно, не зная больше о контексте. Является ли каждое из 696 наблюдений отдельным человеком, и является ли ответ количеством действий, предпринятых каждым человеком? Если да, то есть ли в данных разные типы людей?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.