Когда я изучал достаточность, я столкнулся с вашим вопросом, потому что я также хотел понять интуицию о том, из чего я понял, что я придумаю (дайте мне знать, что вы думаете, если я допустил какие-либо ошибки и т. Д.).
Пусть - случайная выборка из распределения Пуассона со средним θ > 0 .X1,…,Xnθ>0
Известно , что является достаточной статистикой для & thetas , так как условного распределения X 1 , ... , Х п дано Т ( Х ) свободна от & thetas , другими словами, не зависит от θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Теперь статистик знает, что X 1 , … , X n i . я . д ~ Р о я х с О н ( 4 ) и создает п = 400 случайных значений из этого распределения:A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Для значений , созданных статистиком , он берет сумму и спрашивает статистику B следующее:AB
«Я эти выборочные значения берется из распределения Пуассона. Зная , что Σ п я = 1 х я = у = 4068 , что вы можете сказать мне об этом дистрибутиве?»x1,…,xn∑ni=1xi=y=4068
Так, зная , что только (а также тот факт , что образец возник из распределения Пуассона) является достаточным для статистик Б ничего говорить о & thetas ? Поскольку мы знаем, что это достаточная статистика, мы знаем, что ответ «да».∑ni=1xi=y=4068Bθ
Чтобы получить некоторое представление о значении этого, давайте сделаем следующее (взято из «Введение в математическую статистику» Хогга и Маккеана и Крейга, 7-е издание, упражнение 7.1.9):
Bz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
поскольку имеет распределение Пуассона со средним n θ . Последнее распределение является полиномиальным с y независимыми испытаниями, каждое из которых заканчивается одним из n взаимоисключающих и исчерпывающих способов, каждый из которых имеет одинаковую вероятность 1 / n . Соответственно, B проводит такой полиномиальный эксперимент y независимых испытаний и получает z 1 , … , z n . "Y=∑Zinθyn1/nByz1,…,zn
Это то, что говорится в упражнении. Итак, давайте сделаем именно это:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
Zk=0,1,…,13
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
θY=∑Xin
XZ|y
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
Мы видим, что они очень похожи (как и ожидалось)
XiY=X1+X2+⋯+Xn