Достаточная статистика, особенности / проблемы интуиции


16

Я учу себя статистике для удовольствия, и у меня есть путаница относительно достаточной статистики . Я напишу мои путаницы в виде списка:

  1. Если у распределения есть n параметров, то оно будет иметьn достаточной статистики?

  2. Есть ли какое-то прямое соответствие между достаточной статистикой и параметрами? Или же достаточная статистика просто служит пулом «информации», чтобы мы могли воссоздать настройку, чтобы мы могли рассчитать те же оценки для параметров базового распределения.

  3. Все ли дистрибутивы имеют достаточную статистику? то есть. может ли теорема факторизации когда-либо потерпеть неудачу?

  4. Используя нашу выборку данных, мы предполагаем распределение, из которого вероятнее всего получаются данные, и затем можем рассчитать оценки (например, MLE) для параметров для распределения. Достаточная статистика - это способ, позволяющий рассчитывать одни и те же оценки для параметров без необходимости полагаться на сами данные, верно?

  5. Все ли наборы достаточной статистики будут иметь минимальную достаточную статистику?

Это материал, который я использую, чтобы понять тему: https://onlinecourses.science.psu.edu/stat414/node/283

Из того, что я понимаю, у нас есть теорема факторизации, которая разделяет совместное распределение на две функции, но я не понимаю, как мы можем извлечь достаточную статистику после разложения распределения на наши функции.

  1. Вопрос Пуассона, приведенный в этом примере, имел четкую факторизацию, но затем было указано, что достаточной статистикой являются среднее значение выборки и сумма выборки. Откуда мы узнали, что это достаточные статистические данные, просто взглянув на форму первого уравнения?

  2. Как можно провести те же оценки MLE, используя достаточную статистику, если второе уравнение результата факторизации будет иногда зависеть от значений данных Xi ? Например, в случае Пуассона вторая функция зависит от обратного произведения факториалов данных, и у нас больше не будет данных!

  3. Почему размер выборки не является достаточной статистикой по сравнению с примером Пуассона на веб-странице ? Мы бы потребовать п реконструировать некоторые части первой функции , так почему это не является достаточной статистикой, а?nn


Просто быстрый уточняющий вопрос - из какого «угла» вы исходите из достаточности? Максимальная вероятность? Байесовский? Максимальная энтропия? Теория выборки? Что-то другое?
вероятностная

Я пришел с точки зрения MLE, извините, если мое сообщение не было самым большим, это мое первое сообщение на этом форуме!
Кимчи

Ответы:


12

Возможно, вам было бы полезно прочитать о достаточности в любом учебнике по теоретической статистике, где большинство этих вопросов будут подробно освещены. Вкратце ...

  1. Не обязательно. Это особые случаи: для распределений, где поддержка (диапазон значений, которые могут принимать данные) не зависит от неизвестного параметра (-ов), только те из экспоненциального семейства имеют достаточную статистику той же размерности, что и число параметры. Таким образом, для оценки формы и масштаба распределения Вейбулла или местоположения и масштаба логистического распределения по независимым наблюдениям статистика порядка (весь набор наблюдений независимо от их последовательности) минимально достаточна - вы не сможете уменьшить ее дальше, не потеряв информация о параметрах. Если носитель зависит от неизвестного (ых) параметра (ов), он изменяется: для равномерного распределения по максимума выборки достаточно для θ(0,θ)θ; для равномерного распределения по минимума выборки и максимума вместе достаточно.(θ1,θ+1)

  2. Я не знаю, что вы подразумеваете под «прямой перепиской»; альтернатива, которую вы предоставляете, кажется, является хорошим способом описания достаточной статистики.

  3. Да: достаточно данных в целом. (Если вы слышите, как кто-то говорит, что нет достаточной статистики, значит, нет низкоразмерной.)

  4. Да, это идея. (То, что осталось - распределение данных, обусловленное достаточной статистикой, - можно использовать для проверки предположения о распределении независимо от неизвестных параметров.)

  5. Очевидно нет, хотя я собираю контрпримеры не дистрибутивы, которые вы, вероятно, захотите использовать на практике. [Было бы хорошо, если бы кто-нибудь мог объяснить это, не слишком углубляясь в теорию меры.]

В ответ на дальнейшие вопросы ...

  1. enλλxiλxixixixi/n(xi)2

  2. 1x1!x2!xn!λλf(x;λ)

  3. n

xi

n N(xi,n)nθxi


1
Я хотел бы увидеть контрпримеры к 5. Я некоторое время пытался доказать обратное с помощью леммы Цорна, но в один момент она не работает. Но из того, что я собрал, контрпример должен быть действительно странным. У вас есть ориентир, где я мог бы его найти? Я не против того, чтобы быть тяжелым в теории меры.
sjm.majewski

@ sjm.majewski: Lehmann дает Pitcher (1957), «Наборы мер, не допускающих необходимой и достаточной статистики или подполей», Ann. Математика Statist. , 28 , p267-268; и Landers & Rogge (1973). «О достаточности и неизменности», Ann. Statist. , 1 , p543-544.
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.