Два метода начальных тестов значимости

С помощью начальной загрузки я вычисляю значения p тестов значимости, используя два метода:

повторная выборка в соответствии с нулевой гипотезой и подсчет результатов, по крайней мере, таких же экстремальных, как исход исходных данных
повторная выборка в соответствии с альтернативной гипотезой и подсчет результатов, по крайней мере, столь же далеких от первоначального результата, как и значение, соответствующее нулевой гипотезе

Я полагаю, что 1- ^й подход является полностью правильным, поскольку он следует определению значения ap. Я менее уверен насчет второго, но обычно он дает очень похожие результаты и напоминает мне тест Вальда.

Я прав? Оба метода верны? Они идентичны (для больших образцов)?

^{Примеры для двух методов (редактирование после вопросов DWin и ответа Эрика):

Пример 1. Давайте создадим тест начальной загрузки, похожий на два примера T-теста. Метод 1 произведет повторную выборку из одного образца (полученного путем объединения двух оригиналов). Метод 2 будет повторной выборки из обоих образцов независимо.

Пример 2. Построим загрузочный тест корреляции между x₁… xₐ и y₁… yₐ. Метод 1 не предполагает корреляции и повторной выборки с учетом (xₑ, yₔ) пар, где e ≠ ə. Метод 2 скомпилирует загрузочный образец исходных (x, y) пар.

Пример 3. Давайте создадим тест начальной загрузки, чтобы проверить, честна ли монета. Метод 1 создаст случайную выборку с настройкой Pr (head) = Pr (tail) = ½. Метод 2 повторно пробует образец экспериментальных значений головы / хвоста и сравнивает пропорции с ½.}

statistical-significance bootstrap p-value

— winerd
источник

Какая «альтернативная гипотеза»? В традиционной рыболовной номенклатуре будет не просто одна альтернатива, а бесконечное семейство альтернатив. И как вы "образец под гипотезой" по этому вопросу? Выборка сделана на данных. гипотеза о параметре.

— DWin

@DWin: Спасибо, пожалуйста, смотрите мой пример, добавленный к моему вопросу.

— Winerd

Первый подход является классическим и заслуживающим доверия, но не всегда может быть использован. Чтобы получить образцы начальной загрузки, предполагая нулевую гипотезу, вы должны либо принять теоретическое распределение для хранения ( это ваш первый вариант ), либо предположить, что ваша статистика, представляющая интерес, имеет такую же форму распределения при переходе к нулевой гипотезе ( ваш второй вариант ). Например, в обычном предположении t-распределение имеет ту же форму при смещении в другое среднее значение. Однако при изменении нулевой частоты 0,5 биномиального распределения на 0,025 также изменится форма.

По моему опыту, в противном случае, если вы готовы сделать эти предположения, у вас часто есть и другие варианты. В вашем примере 1), где вы, кажется, предполагаете, что оба образца могли быть взяты из одной и той же базовой совокупности, тест на перестановку был бы лучше, по моему мнению.

Есть еще один вариант (который вам кажется вторым), основанный на доверительных интервалах начальной загрузки. По сути, это предполагает, что, если в заявленном вами покрытии указано, что значение на уровне эквивалентно нулевой гипотезе, не включенной в -доверенность. Посмотрите, например, на этот вопрос: в чем разница между доверительными интервалами и проверкой гипотез? $\alpha$ $(1-\alpha)$

Это очень гибкий метод и применим для многих тестов. Однако очень важно построить хорошие доверительные интервалы начальной загрузки, а не просто использовать приближения Вальда или метод процентилей. Некоторая информация здесь: Доверительный интервал на основе бутстрапа

— Erik
источник

Хороший ответ. Таким образом, второй вариант требует симметрии тоже верно? Предположим, что среднее значение вашего доверительного интервала больше 0, и вы полагаете, что H не равно 0, тогда рассмотрение того, где 0 находится в вашем доверительном интервале, отличается от рассмотрения того, насколько экстремальным является среднее значение, если принять H ( они в двух разных направлениях, если вы предполагаете, что смещаете доверительный интервал).

— Михал

@erik только что объявил награду за похожий вопрос - который, по сути, длинная ветреная версия вышеупомянутого комментария - когда можно использовать вариант 2 и при каких условиях? stats.stackexchange.com/questions/175659/…

— Ксавье Бурре Сикот