Начальная загрузка выполняется для того, чтобы получить более надежную картину распределения выборки, чем это предполагается в теории больших выборок. Когда вы начинаете загрузку, количество загружаемых образцов не ограничивается; на самом деле вы получите лучшее приближение к распределению выборки, чем больше загрузочных выборок вы берете. Оно является общим для использования bootsamples, хотя нет ничего магического этого числа. Кроме того, вы не запускаете тест на загрузочных примерах; у вас есть оценка распределения выборки - используйте ее напрямую. Вот алгоритм:B=10,000
- взять bootsample одного набора данных с помощью выборки загрузки-наблюдения с заменой. [Что касается комментариев ниже, один важный вопрос - это то, что представляет собой правильное «наблюдение за загрузкой» для использования в качестве примера загрузки. На самом деле, есть несколько законных подходов; Я упомяну два из них, которые являются надежными и позволяют отразить структуру ваших данных: когда у вас есть данные наблюдений (т. Е. Данные были отобраны по всем измерениям, загрузочное наблюдение может быть упорядоченным n-кортежем (например, строка из вашего набора данных.) Например, если у вас есть одна переменная предиктора и одна переменная ответа, вы должны выбрать n 1 ( x , y )n1n1 (x,y)упорядоченные пары. С другой стороны, при работе с экспериментальными данными значения переменных предикторов не отбирались, а экспериментальные единицы были назначены предполагаемым уровням каждой переменной предикторов. В таком случае вы можете выбрать y значений в пределах каждого из j уровней вашей переменной предиктора, а затем соединить эти y s с соответствующим значением этого уровня предиктора. Таким образом, вы не будете пробовать ]n1j yjyX
- соответствовать вашей модели регрессии и сохранить оценку уклона (назовите ее )β^1
- взять загрузочный образец другого набора данных путем выборки boot-наблюдения с заменойn2
- соответствовать другой регрессионной модели и сохранить оценку уклона (назовите ее )β^2
- сформируйте статистику из двух оценок (предложение: используйте разность наклона )β^1−β^2
- сохранить статистику и сбросить другую информацию, чтобы не тратить память
- повторите шаги 1 - 6, разB=10,000
- сортировать начальную выборку распределения различий наклона
- вычислить% от bsd, который перекрывает 0 (в зависимости от того, что меньше, правый хвост% или левый хвост%)
- умножьте этот процент на 2
Логика этого алгоритма в качестве статистического теста в основном похожа на классические тесты (например, t-тесты), но вы не предполагаете, что данные или полученные распределения выборок имеют какое-то конкретное распределение. (Например, вы не предполагаете нормальности.) Основное предположение, которое вы делаете, заключается в том, что ваши данные представляют население, которое вы выбрали / хотите обобщить. То есть выборочное распределение аналогично распределению населения. Обратите внимание, что если ваши данные не связаны с интересующим вас населением, вам просто не повезло.
Некоторые люди беспокоятся об использовании, например, регрессионной модели для определения наклона, если вы не готовы принять нормальность. Однако это беспокойство ошибочно. Теорема Гаусса-Маркова говорит нам, что оценка несмещена (т. Е. Центрирована на истинном значении), так что все в порядке. Отсутствие нормальности просто означает, что истинное распределение выборки может отличаться от теоретически положенного, и поэтому значения p являются недействительными. Процедура начальной загрузки дает вам возможность решить эту проблему.
Две другие проблемы, касающиеся начальной загрузки: если классические допущения соблюдены, начальная загрузка менее эффективна (т. Е. Имеет меньшую мощность), чем параметрический тест. Во-вторых, начальная загрузка работает лучше всего, когда вы исследуете около центра распределения: средние и средние значения хорошие, квартили не очень хорошие, начальная загрузка минимума или максимума обязательно терпит неудачу. Что касается первого пункта, вам, возможно, не нужно загружаться в вашей ситуации; Что касается второго пункта, начальная загрузка склона - это прекрасно.