Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:
http://en.wikipedia.org/wiki/Empirical_distribution_function
и затем получение образцов начальной загрузки путем моделирования наблюдений из оцененных cdf B раз подряд.
Если я прав в этом, то нужно обратиться к проблеме переоснащения, потому что эмпирический файл cdf имеет около N параметров. Конечно, асимптотически это сходится к населению cdf, но как насчет конечных выборок? Например, если бы я сказал вам, что у меня есть 100 наблюдений, и я собираюсь оценить cdf как с двумя параметрами, вы не будете встревожены. Однако, если бы количество параметров увеличилось до 100, это не казалось бы разумным.
Аналогично, когда используется стандартная множественная линейная регрессия, распределение члена ошибки оценивается как . Если кто-то решит переключиться на загрузку остатков, он должен понять, что теперь существует около n параметров, используемых только для обработки распределения ошибок.
Не могли бы вы направить меня к некоторым источникам, в которых эта проблема решена явно, или скажите, почему это не проблема, если вы считаете, что я ошибся.