Доверительный интервал и неопределенность P-значения для теста перестановки

Я сейчас изучаю рандомизированные тесты. Мне на ум приходят два вопроса:

Да, легко и интуитивно понятно, как значение p вычисляется с помощью теста рандомизации (который, я думаю, совпадает с тестом перестановки?). Тем не менее, как мы можем также генерировать 95% доверительный интервал, как мы делаем с обычными параметрическими тестами?
Когда я читаю документ из Университета Вашингтона о тестах перестановки , на странице 13 есть предложение, которое гласит:

При 1000 перестановках .... неопределенность около p = 0,05 составляет около . $\pm 1\%$

Интересно, как мы получаем эту неопределенность.

confidence-interval p-value permutation-test

— Сэм
источник

Тем не менее, как мы можем также генерировать 95% доверительный интервал, как мы делаем с обычными параметрическими тестами?

Вот один из способов, которым вы можете сгенерировать интервал из теста на повторную выборку, хотя не всегда целесообразно считать его доверительным интервалом . Для конкретного примера возьмите тест на разницу в двух образцах. Подумайте о смещении второго сэмпла на (который может быть положительным или отрицательным). Тогда набор значений которые привели бы к отклонению тестом на уровне можно было бы использовать в качестве номинального доверительного интервала для разности средних. $^\dagger$ $\delta$ $\delta$ $\alpha$ $1-\alpha$

$\dagger$ Некоторые авторы (например, [1], p364 et seq , [2]) называют интервал, построенный таким образом (значения параметров, не отклоняемые тестом), интервал согласных - что является лучшим названием, чем доверительный интервал для него (хотя многие люди просто игнорируют разницу, например, я полагаю, что Кокс и Хинкли называют эти доверительные интервалы), потому что подход не обязательно дает интервалы, которые имеют желаемое покрытие (во многих ситуациях можно увидеть, что так и должно быть); имя что-то говорит о том, что интервал говорит вам (интервал значений, соответствующих данным).

Гельман включает обсуждение того , почему иногда это может быть проблематично повсеместно считают их доверительные интервалы здесь .

Тем не менее, нетрудно исследовать охват при определенных наборах допущений (с помощью моделирования), и нет недостатка в людях, называющих интервалы начальной загрузки «доверительными интервалами» (даже если иногда они не имеют ничего общего с заявленным покрытием).

Более подробная информация о том, как это сделать в двух примерах разницы в средстве, обсуждается в [3], где они называются доверительными интервалами рандомизации, и делается заявление о том, когда они точны (чего я не имею). Т пытался оценить).

При 1000 перестановках .... неопределенность около p = 0,05 составляет около ± 1%.

Интересно, откуда у нас такая неопределенность?

Расчетное значение p является прямой биномиальной пропорцией. Таким образом, она имеет ту же стандартную ошибку, что и любая другая биноминальная пропорция, . $\sqrt{\frac{p(1-p)}{n}}$

Таким образом, если и , стандартная ошибка наблюдаемой пропорции составляет около . ДИ будет [ В качестве альтернативы, составляет около стандартных ошибок с каждой стороны, что соответствовало бы доверительного интервала для базового р-значения чуть более ] $p = 0.05$ $n=1000$ $0.0069$ $90\%$ $\pm 1.13\%$ $\pm 1\%$ $1.45$ $85\%$

Таким образом, по крайней мере, в грубом смысле вы могли бы говорить о неопределенности, составляющей «около 1%»

[1] Кемпторн и Фолкс (1971), «
Вероятность, статистика и анализ данных» ,
издательство Университета штата Айова.

[2] LaMotte LR и Volaufová J, (1999),
"Интервалы прогнозирования через интервалы созвучия",
журнал Королевского статистического общества. Серия D (Статистика) , вып. 48, № 3, с. 419-424

[3] Эрнст, MD (2004),
"Методы перестановки: основа для точного вывода", Статистические науки , Vol. 19, № 4, 676–685

— Glen_b - Восстановить Монику
источник