Ответы:
Прежде всего, мой совет: вы должны воздерживаться от опробования пуассоновского распределения так же, как и с данными. Я предлагаю вам сначала составить теорию о том, почему распределение Пуассона должно соответствовать определенному набору данных или явлению.
После того, как вы это установили, возникает следующий вопрос: является ли распределение однородным или нет. Это означает, что все части данных обрабатываются одним и тем же распределением Пуассона, или есть изменение в этом, основанное на некотором аспекте, таком как время или пространство. Как только вы убедились в этих аспектах, попробуйте следующие три теста:
Ищите их, и вы легко найдете их в сети.
Вот последовательность команд R, которая может быть полезна. Не стесняйтесь комментировать или редактировать, если вы заметили какие-либо ошибки.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Я полагаю, что самый простой способ - это просто провести тест добротности по критерию хи-квадрат .
На самом деле вот хороший Java-апплет , который сделает именно это!
Вы можете использовать дисперсию (отношение дисперсии к среднему значению) в качестве статистики теста, поскольку коэффициент Пуассона должен давать дисперсию 1. Вот ссылка на то, как использовать ее в качестве модельного теста.
Для распределения Пуассона среднее значение равно дисперсии. Если среднее значение выборки сильно отличается от дисперсии выборки, у вас, вероятно, нет данных Пуассона. Упомянутый здесь тест дисперсии также является формализацией этого понятия.
Если ваша дисперсия намного больше среднего значения, как это обычно бывает, вы можете попробовать использовать отрицательное биномиальное распределение.
Вы можете нарисовать одну фигуру, на которой наблюдаемые и ожидаемые частоты изображены рядом. Если распределения очень разные и у вас также есть среднее значение дисперсии больше единицы, то хорошим кандидатом является отрицательный бином. Прочитайте раздел Распределение частот от The R Book
. Это имеет дело с очень похожей проблемой.
Я думаю, что главное - это то, что поднимает Сидмаэстро ... Поддерживает ли экспериментальная установка или механизм генерации данных предпосылку, что данные могут возникнуть из распределения Пуассона.
Я не большой поклонник тестирования предположений о распределении, так как эти тесты обычно не очень полезны. Что кажется мне более полезным, так это сделать предположения о распределении или модели гибкими и достаточно устойчивыми к отклонениям от модели, как правило, для целей вывода. По моему опыту, не так часто видеть среднее = дисперсию, поэтому часто отрицательная биномиальная модель кажется более подходящей и включает Пуассона в качестве особого случая.
Другой момент, который важен для тестирования дистрибуции, если это то, что вы хотите сделать, - это убедиться, что в нем нет страт, которые бы сделали наблюдаемое распределение смесью других дистрибутивов. Могут появиться отдельные распределения для конкретного слоя Пуассона, но наблюдаемой смеси может и не быть. Аналогичная ситуация с регрессией предполагает только то, что условное распределение Y | X нормально распределено, а не само распределение Y.
Еще один способ проверить это - квантильный квантильный график. В R есть qqplot. Это напрямую отображает ваши значения против нормального распределения с аналогичным средним и SD