TLDR. 10000, кажется, является хорошим эмпирическим правилом, например, значения p из этого большого или большего количества образцов начальной загрузки будут в пределах 0,01 от «истинного значения p» для метода примерно в 95% случаев.
Я рассматриваю только метод процентильного бутстрапа ниже, который является наиболее часто используемым методом (насколько мне известно), но также по общему признанию имеет недостатки и не должен использоваться с небольшими выборками .
Рефрейминг слегка. Может быть полезно вычислить неопределенность, связанную с результатами начальной загрузки, чтобы получить представление о неопределенности, возникающей в результате использования начальной загрузки. Обратите внимание, что это не устраняет возможные слабые места в начальной загрузке (например, см. Ссылку выше), но помогает оценить, имеется ли «достаточно» выборок начальной загрузки в конкретном приложении. Как правило, ошибка, связанная с размером выборки при начальной загрузке,n
стремится к нулю по мере n
бесконечности, и n
возникает вопрос, насколько большой должна быть ошибка, связанная с небольшой выборкой при начальной загрузке?
Неопределенность начальной загрузки в p-значении. Неточность в оценочном p-значении, скажем, pv_est - это p-значение, оцененное по начальной загрузке 2 x sqrt(pv_est * (1 - pv_est) / N)
, где N
- число выборок начальной загрузки. Это верно, если pv_est * N
и (1 - pv_est) * N
оба >= 10
. Если один из них меньше 10, то он менее точен, но очень приблизительно в том же районе, что и эта оценка.
Ошибка начальной загрузки в доверительном интервале. Если используется доверительный интервал 95%, то посмотрите, как изменчивость квантилей распределения начальной загрузки составляет около 2,5% и 97,5%, проверив процентили на (для 2,5-го процентиля) 2.5 +/- 2 * 100 * sqrt(0.025 * 0.975 / n)
. Эта формула сообщает о неопределенности нижнего предела 95% -ного доверительного интервала, основанного на количестве выборок начальной загрузки. Аналогичное исследование должно быть сделано в верхней части. Если эта оценка несколько изменчива, то обязательно возьмите больше образцов начальной загрузки!