Размер образцов начальной загрузки


9

Я изучаю начальную загрузку как средство оценки дисперсии выборочной статистики. У меня есть одно основное сомнение.

Цитата из http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Сколько наблюдений мы должны пересчитать? Хорошее предложение - оригинальный размер выборки.

Как мы можем пересчитать столько наблюдений, сколько в исходной выборке?
Если у меня размер выборки 100, и я пытаюсь оценить дисперсию среднего. Как я могу получить несколько образцов начальной загрузки размером 100 из общего размера выборки 100? В этом случае будет возможен только 1 пример начальной загрузки, что будет эквивалентно исходной выборке, верно?

Я, очевидно, неправильно понимаю что-то очень простое. Я понимаю , что число из идеальных образцов бутстраповских всегда бесконечно, и определить количество выборок , необходимых для начальной загрузки моих данных я бы тест на сходимость сохраняя свою требуемую точность в виде.
Но я действительно не понимаю, какой должен быть размер каждого отдельного примера начальной загрузки.


7
Верхняя часть р. 3, и на иллюстрациях там четко и четко указано, что повторная выборка производится с заменой.
whuber

Но если размер моей начальной загрузки совпадает с общим количеством наблюдений, которые я имею, что мне заменить?
user1265125

Упрощенный пример - так что если у меня 4,1,3,7,5 в качестве моего набора образцов. Как я могу создать несколько образцов начальной загрузки размером 5? Единственный образец начальной загрузки размера 5 будет 4,1,3,7,5, то есть исходный набор образцов.
user1265125

1
Ой, подождите, я понял - «• Чтобы смоделировать распределение выборки, мы можем просто взять повторные случайные выборки из этой« совокупности », состоящей из множества копий выборки»
user1265125

Ответы:


16

Бутстрап проводится путем отбора проб с заменой . Похоже, термин «с заменой» для вас неясен. Как отметил Уубер , иллюстрация отбора проб с заменой приведена на с. 3 бумаги, на которую вы ссылаетесь (воспроизведено ниже).

Иллюстрация отбора проб с заменой

(источник: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Общая идея отбора образцов с заменой заключается в том, что в любом случае можно брать несколько раз (зеленый мрамор на первом изображении выше; синий и фиолетовый мраморы на последнем изображении). Если вы хотите представить себе этот процесс, подумайте о миске, наполненной разноцветными шариками. Скажите, что вы хотите нарисовать некоторое количество шариков из этой чаши. Если вы взяли пробы без замены, то вы просто вынули бы шарики из чаши и отложили их в сторону. Если вы взяли пробу с заменой, то вам нужно было бы попробовать мрамор один за другим, вынув из чаши один шарик, записав его цвет в блокноте, а затем вернув его обратно.в миску. Таким образом, при взятии проб с заменой один и тот же мрамор можно отбирать несколько раз.

Таким образом, при отборе проб без замены вы можете отобрать только шариков из чаши, содержащей шариков, а в случае проб с заменой вы можете отобрать любое количество шариков (даже больше, чем ) из конечной популяции. Если вы отобрали из шариков без замены, вы получите точно такой же образец, но в случайном порядке. Если вы отобрали из шариков с заменой, каждый раз вы можете пробовать другую комбинацию шариков.н н н н н н нnnnnnnn

Существует способов выборки без замены случаев из популяции с размером и способов выборки с заменой. Если вы хотите узнать больше о математике, вы можете проверить 2.1. Комбинаторика, глава книги « Введение в вероятности», автор Хоссейн Пишро-Ник. На странице WolframMathWorld также есть удобная шпаргалка .(nk)kn(n+k1k)


0

Сколько наблюдений мы должны повторить? Хорошее предложение - оригинальный размер выборки.

Когда исходный размер выборки слишком велик, и вы не хотите / не можете обучить модель на полном наборе данных, «хорошее предложение» не так хорошо.

PS: я хотел добавить это как комментарий к вопросу, но мне не разрешено добавлять какие-либо комментарии ...


1
Почему вы хотите добавить это предложение? Если это происходит из-за того, что наборы данных слишком велики для регулярных вычислительных усилий, это актуальный практический вопрос, но он не относится к теории начальной загрузки, которая здесь ставилась под сомнение. Более того, речь шла об «оценке дисперсии выборочной статистики». Это действительно связано с обучением модели? (NB. Не хамить, я понимаю, что вы пока не можете оставлять комментарии, но это не освобождает вас от предоставления соответствующего ответа при публикации как таковой. Вы должны быть намного яснее, ИЛИ оставлять свой вопрос)
IWS
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.