Насколько хорошо самозагрузка аппроксимирует выборочное распределение оценки?


29

Недавно изучив начальную загрузку, у меня возник концептуальный вопрос, который до сих пор меня удивляет:

У вас есть население, и вы хотите знать атрибут населения, то есть , где я использую для представления населения. Это может означать, например, население. Обычно вы не можете получить все данные от населения. Таким образом, вы берете образец размера от населения. Предположим, у вас есть образец iid для простоты. Тогда вы получите оценку . Вы хотите использовать чтобы сделать выводы о , поэтому вы хотели бы знать, как изменяется .Р & thetas ; Х Н & thetas ; = г ( Х ) & thetas ; & thetas ; & thetas ;θ=g(P)PθXNθ^=g(X)θ^θθ^

Во-первых, существует истинное выборочное распределение . Концептуально, вы можете взять много образцов (каждый из них имеет размер ) из популяции. Каждый раз у вас будет реализация поскольку каждый раз у вас будет другой образец. Затем, в конце концов, вы сможете восстановить истинный дистрибутив . Хорошо, по крайней мере, это концептуальный эталон для оценки распределения . Позвольте мне повторить это: конечной целью является использование различных методов для оценки или аппроксимации истинного распределения . N θ =г(Х)θ^Nθ^=g(X) ; & thetas ;θ^θ^θ^

Теперь возникает вопрос. Обычно у вас есть только один образец который содержит точек данных. Затем вы будете многократно повторять выборку из этого примера, и вы получите загрузочный дистрибутив . Мой вопрос: насколько близко это распределение начальной загрузки к истинному выборочному распределению ? Есть ли способ определить это?Н θXNθ^θ^


1
Этот чрезвычайно связанный вопрос содержит множество дополнительной информации, так что, возможно, этот вопрос будет повторяться.
Сиань

Во-первых, спасибо всем за столь быстрый ответ на мои вопросы. Это первый раз, когда я использую этот сайт. Я никогда не ожидал, что мой вопрос честно привлечет к себе внимание. У меня есть небольшой вопрос, что такое «OP»? @
Silverfish

@ Чен Джин: "OP" = оригинальный постер (то есть вы!). Извинения за использование аббревиатуры, которое я принимаю, может сбить с толку.
Серебряная рыба

1
Я отредактировал название так, чтобы оно более точно соответствовало вашему утверждению: «Мой вопрос: насколько близко это к истинному распределению ? Есть ли способ его количественно оценить?» Не стесняйтесь отменить его, если вы не думаете, что мое редактирование отражает ваши намерения. θ^
Серебряная рыбка

@Silverfish Большое спасибо. Когда я начинаю этот постер, я не совсем уверен в своем вопросе на самом деле. Это новое название хорошо.
КевинКим

Ответы:


20

В теории информации типичным способом количественной оценки того, насколько «близко» одно распределение к другому, является использование KL-дивергенции.

Попробуем проиллюстрировать это с помощью сильно искаженного набора данных с длинным хвостом - задержки прибытия самолетов в аэропорт Хьюстона (из пакета hflights ). Пусть будет средней оценкой. Сначала мы находим выборочное распределение , а затем загрузочное распределение ; & thetas ; & thetas ;θ^θ^θ^

Вот набор данных:

введите описание изображения здесь

Истинное среднее значение составляет 7,09 мин.

Сначала мы делаем определенное количество выборок, чтобы получить распределение выборки , затем мы берем одну выборку и получаем из нее много загрузочных выборок.θ^

Например, давайте рассмотрим два распределения с размером выборки 100 и 5000 повторений. Мы видим визуально, что эти распределения довольно обособлены, и дивергенция KL составляет 0,48.

введите описание изображения здесь

Но когда мы увеличиваем размер выборки до 1000, они начинают сходиться (дивергенция КЛ равна 0,11)

введите описание изображения здесь

И когда размер выборки составляет 5000, они очень близки (расхождение KL составляет 0,01)

введите описание изображения здесь

Это, конечно, зависит от того, какой образец начальной загрузки вы получаете, но я полагаю, вы можете увидеть, что расхождение KL уменьшается по мере того, как мы увеличиваем размер выборки, и, таким образом, распределение начальной загрузки приближается к распределению выборки в терминах КЛ Дивергенция. Чтобы быть уверенным, вы можете попробовать сделать несколько бутстрапов и взять среднее значение дивергенции KL. ; & thetas ;θ^θ^

Вот код R этого эксперимента: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1, и это также показывает, что для любого данного размера выборки (например, 100), смещение при загрузке может быть большим и неизбежным.
говорит амеба: восстанови Монику

θ^θ^N

NВзнак равно10Взнак равно10000θ^NВθ^

1
θ^Взнак равно10Взнак равно100001010000

1
F555FВFВ

23

F^N(Икс)знак равно1NΣязнак равно1NяИксяИксИкся~н.о.р.F(Икс)
NF(Икс)Иксθ^(Икс1,...,ИксN)знак равног(F^N)N Икс
N{F^N(Икс)-F(Икс)}расстояниеN(0,F(Икс)[1-F(Икс)])
г(F^N)г(F^N)

введите описание изображения здесьFF^NNзнак равно100250FF^N

Дальнейшее обновление: вот как выглядит изображение трубки, начиная с эмпирического файла cdf: введите описание изображения здесь


5
Суть этого ответа в том, что бутстрап работает, потому что это приближение большой выборки . Я не думаю, что этот момент достаточно подчеркнут
shadowtalker

2
Я имею в виду, «в целом подчеркивается достаточно часто»
shadowtalker

F^Nзнак равно100

3
FNF

@ Сиань Очень хорошо! было бы еще лучше, если бы 2-я и 3-я фигуры могли быть объединены в одну фигуру
KevinKim
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.