Бутстреп против проверки гипотезы о перестановке


37

Существует несколько популярных методов передискретизации, которые часто используются на практике, такие как начальная загрузка, тест перестановки, складной нож и т. Д. Об этих методах рассказывается множество статей и книг, например, Philip I Good (2010) Permutation, Parametric и Bootstrap Tests гипотез

Мой вопрос заключается в том, какая техника повторной выборки приобрела большую популярность и стала проще в применении? Бутстреппинг или перестановочные тесты?


8
Популярность вряд ли является хорошим показателем качества. Судя по количеству ссылок (клиентов), McDonalds является гораздо более популярным (лучше?) Рестораном, чем любое трехзвездочное заведение Мишлен. Тогда ты возьмешь своего следующего докладчика в Макдональдс?
StasK

Ответы:


68

Оба популярны и полезны, но в основном для разных целей. Тест на перестановку лучше всего подходит для проверки гипотез, а метод начальной загрузки - для оценки доверительных интервалов.

Тесты перестановки проверяют определенную нулевую гипотезу об обменности, то есть, что только случайная выборка / рандомизация объясняет видимую разницу. Это общий случай для таких вещей, как t-тесты и ANOVA. Он также может быть расширен до таких вещей, как временные ряды (нулевая гипотеза об отсутствии последовательной корреляции) или регрессия (нулевая гипотеза об отсутствии взаимосвязи). Тесты перестановки могут использоваться для создания доверительных интервалов, но для этого требуется гораздо больше допущений, которые могут быть или не быть разумными (поэтому предпочтительны другие методы). Тест Манна-Уитни / Уилкоксона на самом деле является частным случаем теста на перестановку, поэтому он гораздо более популярен, чем некоторые думают.

Бутстрап оценивает изменчивость процесса отбора проб и хорошо подходит для оценки доверительных интервалов. Вы можете сделать проверку гипотезы таким образом, но она имеет тенденцию быть менее мощной, чем проверка перестановки для случаев, когда выполняются предположения проверки перестановки.


2
Спасибо за ответ. Почему доверительный интервал начальной загрузки менее мощный, чем тест перестановки? Сколько так? Можно ли охарактеризовать ситуации, при которых он значительно менее силен? Кажется преимуществом возможность показать доверительный интервал, поэтому в этом смысле бутстрап выглядит более ценным.
dfrankow

2
@dfrankow, 2 метода используют разные предположения. Для больших выборок и различий они оба будут хорошими, но при меньших выборках / различиях тест перестановки с большей вероятностью обнаружит различия и будет уместным. Посмотрите этот ответ: stats.stackexchange.com/questions/112147/… за примерами, где начальная загрузка даже не имеет правильного размера (отклоняется слишком часто, когда значение NULL равно true).
Грег Сноу,

Разве тест на перестановку не является вариантом начальной загрузки?
Вики Б

Тесты @VickiB, Bootstrapping и Permutation часто упоминаются вместе, но бустреппинг выборок с заменой и выборками перестановки без замены дает разницу в том, что они могут сделать и насколько они мощные.
Грег Сноу


8

Мой вопрос заключается в том, какая техника повторной выборки приобрела большую популярность в
тестах начальной загрузки или перестановки?

  1. Начальная загрузка в основном заключается в генерации больших выборочных стандартных ошибок или доверительных интервалов; тесты перестановки, как следует из названия, в основном о тестировании. (Каждый может быть адаптирован для использования в другой задаче.)

  2. Как бы мы оценили популярность? Если мы посмотрим на такие области, как психология и образование, мы сможем найти множество применений ранговых тестов, таких как Уилкоксон-Манн-Уитни, подписанных ранговых тестов, ранговых корреляционных тестов и так далее. Все это тесты перестановок (с другой стороны, есть много случаев, когда тесты перестановок исходных данных можно использовать вместо этого, но обычно их нет). В некоторых других прикладных областях тесты перестановки используются редко, но разная популярность в прикладных областях иногда говорит скорее о местной культуре какой-либо области, чем о полезности.

проще реализовать?

Во многих случаях, особенно в более простых, они почти одинаково просты - по сути, это разница между выборкой с заменой и выборкой без замены.

В некоторых из более сложных случаев загрузку проще выполнить, потому что (если смотреть с точки зрения тестирования), она работает вместо альтернативы, а не с нуля (по крайней мере, наивные реализации будут - делать это так, чтобы она работала хорошо). может быть намного сложнее).

Точные тесты перестановки могут быть трудными в более сложных случаях, потому что подходящее обменное количество может быть ненаблюдаемым - часто почти заменяемое количество может быть заменено ценой точности (и того, чтобы быть действительно свободным от распределения).

По сути, при начальной загрузке с самого начала отказывается от соответствующего критерия точности (точного охвата интервалов) и вместо этого сосредотачивается на попытках получить достаточно хорошее покрытие в больших выборках (иногда с меньшим успехом, чем можно понять; не предполагайте, что ваш загрузчик дает покрытие, которое вы ожидаете).

Тесты перестановки могут работать на небольших выборках (хотя ограниченный выбор уровней значимости иногда может быть проблемой для очень малых выборок), в то время как начальная загрузка является методом большой выборки (если вы используете его с небольшими выборками, во многих случаях результаты могут не быть очень полезным).

Я редко вижу их в качестве конкурентов по одной и той же проблеме и использую их для решения (разных) реальных задач - часто будет естественный выбор, на который можно посмотреть.

Есть преимущества для обоих, но не в панацею. Если вы надеетесь сократить учебные усилия, сосредоточившись только на одном из них, вы, вероятно, будете разочарованы - оба являются важными частями набора инструментов для повторной выборки.


1
Не могли бы вы уточнить, что означает « подходящее обменное количество может быть ненаблюдаемым »? (+1 очевидно)
usεr11852 говорит восстановить Monic

1
Попробуйте провести тест на перестановку в эксперименте с двумя факторами и ковариатой (или просто рассмотреть регрессию с несколькими предикторами). С независимостью и без каких-либо эффектов вообще наблюдения взаимозаменяемы, и поэтому вы можете проверить эту гипотезу, но у вас нет способа построить перестановочный тест только из факторов (так как вы ожидаете, что ковариата будет иметь эффект и тестирование на ноль не интересно); Точно так же вы не можете построить тест на перестановку только одного из двух факторов. ... ctd
Восстановить Монику

1
ctd ... Существует очевидное количество, которое можно обменять, если вы знаете коэффициенты совокупности, которые вы не тестируете (а ошибки всегда можно обменять), но вы не можете наблюдать за этими вещами. Если вы подставите оценки коэффициентов или ошибок (т. Е. Остатки), то количества будут более взаимозаменяемыми. Однако в некоторых конкретных условиях они будут примерно взаимозаменяемыми (некоторые люди рекомендуют делать именно это) .... и если вы сделаете это, вы получите что-то похожее на бутстрап, но с выборкой без замены вместо выборки с заменой.
Glen_b

Спасибо; Я буду тщательно обдумывать это. Я подозреваю, что здесь есть что-то более глубокое для меня. :)
usεr11852 говорит восстановить Monic

1
@NULL по какой-то причине я пропустил ваш запрос на ссылку. Для начала, некоторые ссылки здесь должны сделать: davegiles.blogspot.com/2019/04/…
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.