Эмпирическое правило для количества образцов начальной загрузки


40

Интересно, знает ли кто-нибудь какие-либо общие практические правила относительно количества выборок начальной загрузки, которые следует использовать, основываясь на характеристиках данных (количество наблюдений и т. Д.) И / или включенных переменных?


2
Мне тоже было интересно об этом, так как я планирую анализ моделирования. Есть ли какая-либо причина не использовать столько образцов, сколько возможно / практически осуществимо? Помимо экологических проблем (например, расходов на электроэнергию) и личных проблем (например, превышение критических порогов для устойчивого занудства, переход к чистому гиковому состоянию ), я пока не вижу каких-либо противопоказаний в ответах (+1 по всем BTW). .
Ник Stauner

4
@ Ник, я в значительной степени согласен - я обычно использую столько, сколько я могу позволить себе ждать (обычно до миллиона, хотя и не всегда), но обычно расцениваю 1000 как довольно четкую нижнюю границу. В качестве первой попытки я часто делаю 1K, чтобы получить информацию о времени, а затем выясняю, сколько раз я готов ждать фактического ответа.
Glen_b

1
Если отнимающая много времени часть процесса генерирует симуляции, и наблюдения из них могут быть легко объединены (как они часто могут с небольшим дополнительным кодированием), кажется, что нет никаких оправданий, чтобы не ошибиться в стороне переизбытка. Я полагаю, что со временем это может вылиться из-под контроля, если все люди сделают это и забудут почему, но так как этого, вероятно, никогда не произойдет ... Наличие минимального порога, к которому люди стремятся излишне, кажется немного контрпродуктивным, если альтернатива - просто стремиться к большему, пока на самом деле не остается места для сомнений, - таким образом, не поощряется неявно.
Ник Стаунер

Я просто загружаюсь, пока не увижу четкую конвергенцию. Если вы хотите уменьшить беспокойство рецензентов, я бы просто включил визуализацию итераций начальной загрузки в сравнении с полученной оценкой, чтобы проиллюстрировать сходимость.
RTbecard

North et al. 2002 предоставляет некоторые рекомендации, которые я нашел полезными DOI: 10.1086 / 341527 [ ncbi.nlm.nih.gov/pmc/articles/PMC379178/pdf/AJHGv71p439.pdf]
Майкл,

Ответы:


33

Мой опыт показывает, что статистики не будут серьезно относиться к моделированию или начальной загрузке, если количество итераций не превышает 1000. Ошибка MC - большая проблема, которая немного недооценивается. Например, этот документ использовался Niter=50для демонстрации LASSO как инструмента выбора функций. Мой тезис занял бы намного меньше времени, если бы 50 итераций считались приемлемыми! Я рекомендую вам всегда проверять гистограмму образцов начальной загрузки . Их распределение должно выглядеть довольно равномерно. Я не думаю, что какое-либо простое числовое правило будет достаточным, и было бы излишне выполнять, скажем, двойную загрузку для оценки ошибки MC.

Предположим, что вы оценивали среднее значение из отношения двух независимых стандартных нормальных случайных величин, некоторые статистики могут порекомендовать загрузить его, так как интеграл трудно вычислить. Если у вас есть базовая теория вероятностей под вашим поясом, вы должны признать, что это отношение образует случайную величину Коши с несуществующим средним. Любое другое лептокурсическое распределение потребовало бы нескольких дополнительных итераций начальной загрузки по сравнению с более регулярным аналогом плотности Гаусса. В этом случае 1000, 100000 или 10000000 выборок начальной загрузки будет недостаточно для оценки того, чего не существует. Гистограмма этих бутстрэпов будет выглядеть нерегулярно и неправильно.

В этой истории есть еще несколько морщин. В частности, начальная загрузка действительно оправдана только тогда, когда существуют моменты вероятностной модели генерации данных. Это потому, что вы используете эмпирическую функцию распределения в качестве соломенного человека для фактической модели вероятности и предполагаете, что они имеют одинаковое среднее значение, стандартное отклонение, асимметрию, 99-й процентиль и т. Д.

Короче говоря, оценка начальной загрузки статистики и ее стандартной ошибки оправдана только тогда, когда гистограмма выборок с начальной загрузкой кажется правильной вне всякого разумного сомнения и когда обоснование начальной загрузки.


3
Я всегда также видел большие образцы начальной загрузки. Однако в «Введении в Bootstrap» (1994) Эфрона и Тибширани сообщается, что вы можете получить приличную оценку с B = 25, а с B = 200 вы приближаетесь к тому же коэффициенту вариации, что и бесконечность. Они предоставляют таблицу коэффициентов вариации для различных B (стр. 52-53, обе страницы доступны в книгах Google).
Джереми Таунсли,

19

редактировать:

Если вы серьезно относитесь к наличию достаточного количества сэмплов, вам следует запустить процедуру начальной загрузки с, как вы надеетесь, достаточным количеством сэмплов несколько раз и посмотреть, насколько «скачут» оценки при начальной загрузке. Если повторные оценки не сильно отличаются (где «многое» зависит от вашей конкретной ситуации), вы, скорее всего, в порядке. Конечно, вы можете оценить, насколько многократно повторяются оценки, вычисляя образец SD или аналогичный.

Если вам нужна справка и практическое правило, Уилкокс (2010) пишет: «599 рекомендуется для общего пользования». Но это следует рассматривать только как ориентир или, возможно, минимальное количество образцов, которые вы должны рассмотреть. Если вы хотите быть в безопасности, нет никаких причин (если это возможно в вычислительном отношении), почему бы вам не генерировать на порядок больше выборок.

Что касается меня, я обычно использую 10 000 выборок при оценке «для себя» и 100 000 выборок при оценке того, что передается другим (но это быстро, поскольку я работаю с небольшими наборами данных).

Ссылка

Wilcox, RR (2010). Основы современных статистических методов: Существенное улучшение мощности и точности. Springer.


17
599? Пятьсот девяносто девять? Что на земле может быть аргументом в пользу этого числа?
говорит амеба, восстанови Монику

Спросите Уилкокса (2010), я думаю ... Мне тоже любопытно; может быть, Расмус украсит нас немного больше контекста вокруг цитаты?
Ник Стаунер

Для меня непонятно, откуда взялись 599 ... добавил несколько лучших советов к ответу, хотя ...
Расмус Бат

8
@amoeba Вы можете прочитать "отрывок" для себя . Это пример исключительно нечеткой записи в статистике, и, в частности, он применяется только к выводу усеченного среднего с помощью стандартных оценок ошибок Виндзори .
AdamO

11

В некоторых ситуациях вы можете сказать заранее или после нескольких итераций, что огромное количество итераций начальной загрузки не поможет в конце.

  • Мы надеемся, что у вас есть идея заранее о порядке точности, которая требуется для осмысленной интерпретации результатов. Если нет, возможно, пришло время узнать немного больше о проблеме, стоящей за анализом данных. В любом случае, после нескольких итераций вы сможете оценить, сколько еще нужно итераций.

  • Очевидно, что если у вас крайне мало случаев (скажем, комитет по этике разрешил 5 крыс), вам не нужно думать о десятках тысяч итераций. Возможно, было бы лучше посмотреть на все возможные розыгрыши. И, возможно, было бы еще лучше остановиться и подумать, насколько точно (не) могут быть основаны любые выводы на основе 5 крыс.

  • Подумайте об общей неопределенности результатов. В моей области та часть неопределенности, которую вы можете измерить и уменьшить с помощью начальной загрузки, может составлять лишь небольшую часть общей неопределенности (например, из-за ограничений в планировании экспериментов важные источники вариаций часто не охватываются экспериментом, скажем, Мы начинаем с экспериментов на клеточных линиях, хотя конечной целью, конечно, будут пациенты). В этой ситуации не имеет смысла запускать слишком много итераций - это в любом случае не поможет конечному результату, и, кроме того, оно может вызвать ложное чувство уверенности.

  • Связанная (хотя и не совсем та же) проблема возникает во время внешней загрузки или перекрестной проверки моделей: у вас есть два источника неопределенности: конечный (и в моем случае обычно очень небольшое количество независимых случаев) и (в) стабильность загруженных моделей. В зависимости от настройки проверки повторной выборки, у вас может быть только одна, способствующая оценке повторной выборки. В этом случае вы можете использовать оценку другого источника отклонения, чтобы судить, какой уверенности вы должны достичь с помощью повторной выборки и когда она останавливается, чтобы помочь в конечном результате.

  • Наконец, хотя до сих пор мои мысли были о том, как сделать меньше итераций, вот практическое соображение в пользу того, чтобы делать больше : на
    практике моя работа не выполняется после запуска начальной загрузки. Выходные данные начальной загрузки должны быть объединены в сводную статистику и / или цифры. Результаты должны быть интерпретированы на бумаге или отчет, который будет написан. Многое из этого уже может быть сделано с предварительными результатами нескольких итераций начальной загрузки (если результаты ясны, они показывают уже после нескольких итераций, если они являются пограничными, они останутся пограничными). Поэтому я часто настраиваю загрузчик так, чтобы он мог получать предварительные результаты, чтобы я мог продолжать работать, пока компьютер вычисляет. Таким образом, меня не сильно беспокоит, если загрузка займет еще несколько дней.


10

TLDR. 10000, кажется, является хорошим эмпирическим правилом, например, значения p из этого большого или большего количества образцов начальной загрузки будут в пределах 0,01 от «истинного значения p» для метода примерно в 95% случаев.

Я рассматриваю только метод процентильного бутстрапа ниже, который является наиболее часто используемым методом (насколько мне известно), но также по общему признанию имеет недостатки и не должен использоваться с небольшими выборками .

Рефрейминг слегка. Может быть полезно вычислить неопределенность, связанную с результатами начальной загрузки, чтобы получить представление о неопределенности, возникающей в результате использования начальной загрузки. Обратите внимание, что это не устраняет возможные слабые места в начальной загрузке (например, см. Ссылку выше), но помогает оценить, имеется ли «достаточно» выборок начальной загрузки в конкретном приложении. Как правило, ошибка, связанная с размером выборки при начальной загрузке,n стремится к нулю по мере nбесконечности, и nвозникает вопрос, насколько большой должна быть ошибка, связанная с небольшой выборкой при начальной загрузке?

Неопределенность начальной загрузки в p-значении. Неточность в оценочном p-значении, скажем, pv_est - это p-значение, оцененное по начальной загрузке 2 x sqrt(pv_est * (1 - pv_est) / N), где N- число выборок начальной загрузки. Это верно, если pv_est * Nи (1 - pv_est) * Nоба >= 10. Если один из них меньше 10, то он менее точен, но очень приблизительно в том же районе, что и эта оценка.

Ошибка начальной загрузки в доверительном интервале. Если используется доверительный интервал 95%, то посмотрите, как изменчивость квантилей распределения начальной загрузки составляет около 2,5% и 97,5%, проверив процентили на (для 2,5-го процентиля) 2.5 +/- 2 * 100 * sqrt(0.025 * 0.975 / n). Эта формула сообщает о неопределенности нижнего предела 95% -ного доверительного интервала, основанного на количестве выборок начальной загрузки. Аналогичное исследование должно быть сделано в верхней части. Если эта оценка несколько изменчива, то обязательно возьмите больше образцов начальной загрузки!


N

7

599

αВ

α(1+В)знак равноцелое число

α1знак равно0,1α2знак равно0,05

У нас есть

В1знак равноцелое число0,1-1,В2знак равноцелое число0,05-1

599

Я взял следующую информацию у Дэвидсона Р. и Маккиннона Дж. Г. (2000). Бутстрап-тесты: сколько бутстрапов? Эконометрические обзоры, 19 (1), 55-68. (рабочая версия документа доступна для свободного скачивания).

0,053990,011499

В

«Легко понять, почему процедура предварительного тестирования работает хорошо. Когда нулевая гипотеза верна, B может быть безопасным, потому что нас совсем не волнует мощность. Точно так же, когда нулевое значение равно false и тестовая мощность чрезвычайно высока, B не обязательно должен быть большим, потому что потеря мощности не является серьезной проблемой. Однако, когда нулевое значение равно false, а тестовая мощность умеренно высока, B должен быть большим, чтобы избежать потери мощности. Процедура предварительного тестирования имеет тенденцию приводить к B маленький, когда он может безопасно быть маленьким и большим, когда он должен быть большим. "

В


4

В большинстве загрузочных приложений, которые я видел, было от 2000 до 100 тыс. Итераций. В современной практике с адекватным программным обеспечением основные проблемы с начальной загрузкой являются статистическими, в большей степени, чем время и вычислительная мощность. Для начинающих пользователей с Excel, можно выполнить только несколько сотен, прежде чем требовать использования расширенного программирования на Visual Basic. Тем не менее, R намного проще в использовании и позволяет легко и просто генерировать тысячи загруженных значений.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.