Почему достаточная статистика содержит всю информацию, необходимую для вычисления какой-либо оценки параметра?


16

Я только начал изучать статистику, и я не могу получить интуитивное понимание достаточности. Чтобы быть более точным, я не могу понять, как показать, что следующие два абзаца эквивалентны:

Грубо говоря, с учетом набора X независимых идентично распределенных данных, обусловленных неизвестным параметром θ, достаточной статистикой является функция T (X), значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра.

Статистика T (X) достаточна для лежащего в основе параметра θ именно в том случае, если распределение условной вероятности данных X, учитывая статистику T (X), не зависит от параметра θ.

(Я взял цитаты из достаточной статистики )

Хотя я понимаю второе утверждение и могу использовать теорему факторизации, чтобы показать, является ли данная статистика достаточной, я не могу понять, почему статистика с таким свойством также обладает тем свойством, что она «содержит всю информацию, необходимую для вычисления любого оценка параметра ». Я не ищу формального доказательства, которое в любом случае помогло бы уточнить мое понимание, я хотел бы получить интуитивное объяснение того, почему эти два утверждения эквивалентны.

Напомним, мои вопросы: почему два утверждения эквивалентны? Может ли кто-нибудь дать интуитивное объяснение их эквивалентности?


1
Основная интуитивная идея заключается в том, что вам иногда не нужно видеть весь образец, потому что вы можете найти статистику, которая суммирует всю информацию, необходимую из образца. Возьмите, например, биномиальное распределение: все, что вам нужно знать для вашей модели, это сумма успехов. Вы не потеряете ничего ценного , если бы я только сказать, что , вместо того , чтобы показать вам весь набор дискретных значений х = { 1 , 0 , 0 , 1 , 0 , 1 , . , , } . inxi=cx={1,0,0,1,0,1,...}
Mugen

Я понимаю, почему мне нужна достаточная статистика и как показать, что сумма успехов является достаточной статистикой для p в процессе Бернулли. Я не понимаю, почему статистика, подобная описанной во втором абзаце, содержит всю информацию, необходимую для вычисления любой оценки параметра.
gcoll

3
Строго говоря, первая цитата просто неверна. Существует множество оценщиков, которые могут быть вычислены из всего набора данных, которые не могут быть вычислены исключительно из достаточных статистических данных. Это одна из причин, по которой цитата начинается примерно. Другая причина в том, что он не дает количественного или строгого определения «информации». Поскольку гораздо более точная (но все еще интуитивная) характеристика была дана в предыдущем абзаце, тем не менее, есть небольшая проблема с этой цитатой в надлежащем контексте.
whuber

1
Это связано с максимальной вероятностью, и это, по сути, информация, необходимая для максимальной вероятности
Kamster

1
После комментариев whuber и @Kamster, я, вероятно, лучше понял. Когда мы говорим, что достаточная статистика содержит всю информацию, необходимую для вычисления любой оценки параметра, действительно ли мы имеем в виду, что этого достаточно для вычисления оценки максимального правдоподобия (которая является функцией всей достаточной статистики)? Если это действительно так, то проблема была связана с (не) определением «информации», как предложил Уабер, и на мой вопрос дан ответ.
gcoll

Ответы:


3

После комментариев @whuber и @Kamster, я, вероятно, лучше понял. Когда мы говорим, что достаточная статистика содержит всю информацию, необходимую для вычисления любой оценки параметра, мы на самом деле имеем в виду, что достаточно рассчитать оценку максимального правдоподобия (которая является функцией всей достаточной статистики).

Учитывая, что я отвечаю на свой вопрос, и поэтому я не на 100% уверен в ответе, я не буду отмечать его как правильный, пока не получу некоторую обратную связь. Пожалуйста, добавьте любой комментарий и проголосуйте, если вы думаете, что я ошибаюсь / неточен / и т.д ...

(Дайте мне знать, если это не совместимо с этикетом SE, так как это мой первый вопрос, я прошу вашей помилования, если я нарушаю какое-либо правило)


1

Когда я изучал достаточность, я столкнулся с вашим вопросом, потому что я также хотел понять интуицию о том, из чего я понял, что я придумаю (дайте мне знать, что вы думаете, если я допустил какие-либо ошибки и т. Д.).

Пусть - случайная выборка из распределения Пуассона со средним θ > 0 .X1,,Xnθ>0

Известно , что является достаточной статистикой для & thetas , так как условного распределения X 1 , ... , Х п дано Т ( Х ) свободна от & thetas , другими словами, не зависит от θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Теперь статистик знает, что X 1 , , X n i . я . д ~ Р о я х с О н ( 4 ) и создает п = 400 случайных значений из этого распределения:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Для значений , созданных статистиком , он берет сумму и спрашивает статистику B следующее:AB

«Я эти выборочные значения берется из распределения Пуассона. Зная , что Σ п я = 1 х я = у = 4068 , что вы можете сказать мне об этом дистрибутиве?»x1,,xni=1nxi=y=4068

Так, зная , что только (а также тот факт , что образец возник из распределения Пуассона) является достаточным для статистик Б ничего говорить о & thetas ? Поскольку мы знаем, что это достаточная статистика, мы знаем, что ответ «да».i=1nxi=y=4068Bθ

Чтобы получить некоторое представление о значении этого, давайте сделаем следующее (взято из «Введение в математическую статистику» Хогга и Маккеана и Крейга, 7-е издание, упражнение 7.1.9):

Bz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

поскольку имеет распределение Пуассона со средним n θ . Последнее распределение является полиномиальным с y независимыми испытаниями, каждое из которых заканчивается одним из n взаимоисключающих и исчерпывающих способов, каждый из которых имеет одинаковую вероятность 1 / n . Соответственно, B проводит такой полиномиальный эксперимент y независимых испытаний и получает z 1 , , z n . "Y=Zinθyn1/nByz1,,zn

Это то, что говорится в упражнении. Итак, давайте сделаем именно это:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

введите описание изображения здесь

θY=Xin

XZ|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

введите описание изображения здесь

Мы видим, что они очень похожи (как и ожидалось)

XiY=X1+X2++Xn


0

Позвольте мне дать другую точку зрения, которая может помочь. Это также качественно, но есть строгая версия этого, особенно важного в теории информации, известная как свойство Маркова.

θθθθобеспокоен. Обратите внимание, что в вероятностях это то, где все неопределенности фиксируются, и, следовательно, «любая оценка», когда (условные) вероятности являются независимыми (например, факторизация условных плотностей).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.