Отказ от гипотезы с использованием p-значения, эквивалентного гипотезе, не относящейся к доверительному интервалу?

При формальном выводе доверительного интервала оценки я получил формулу, очень похожую на способ вычисления $p$ значения.

Таким образом, вопрос: формально они эквивалентны? Т.е. отвергает гипотезу $H_0 = 0$ с критическим значением $\alpha$ эквивалентным $0$ не принадлежащему доверительному интервалу с критическим значением $\alpha$ ?

hypothesis-testing confidence-interval p-value

— Хорхе Лейтао
источник

@f coppens: да, если используются два теста с разной статистикой, вы получите два разных доверительных интервала. Но я думаю, что OP обнаружил основной факт: и доверительный интервал, и значение p получены из распределения одной и той же статистики, поэтому оба они могут быть использованы для принятия решения об отклонении нулевой гипотезы или нет.

— StijnDeVuyst

@StijnDeVuyst: интервал Клоппера / Пирона для пропорции и интервал Стерна для пропорции получены из биномиального распределения с одинаковым размером (p неизвестно, поскольку они находят доверительный интервал для p). Разница между Клоппером / Пирсоном и Стерном обусловлена асимметрией биномиальной плотности. Интервал Стерна пытается минимизировать ширину интервала, а Clopper_pearson пытается сохранить симметрию (но из-за асимметрии бинома это можно найти только приблизительно).

Нет, вообще нет. Рассмотрим случаи, когда ширина интервала является функцией предполагаемого значения параметра, тогда как для теста ширина интервала является функцией предполагаемого. Очевидным примером было бы тестирование бинома p. Давайте использовать нормальный ок. для простоты (хотя форма аргумента не полагается на это). Рассмотрим n = 10 и ноль при p = 0.5. Представьте себе наблюдение 2 голов; NULL не отклоняется (потому что «2» находится внутри 95% -го интервала около 0,5), но CI для p не включает 0,5 (потому что CI уже, чем ширина интервала под нулем.

— Glen_b -Reinstate Monica

Или, если вам нужно, чтобы он был достаточно большим, чтобы нормальное приближение было хорошим, попробуйте 469 головок в 1000 бросков, для H0 p = 0,5; опять же, 95% CI для p не включает 0,5, но тест 5% не отклоняет, потому что соответствующая ширина интервала при H0 шире, чем при альтернативе (из чего вы делаете CI).

— Glen_b

@Glen_b: Кажется, что этот новый вопрос stats.stackexchange.com/questions/173005 предоставляет пример именно той ситуации, которую вы здесь описывали.

— говорит амеба, восстанови Монику

Да и нет.

Сначала "да"

Вы заметили, что когда тест и доверительный интервал основаны на одной и той же статистике, между ними существует эквивалентность: мы можем интерпретировать значение как наименьшее значение для которого нулевое значение параметра будет быть включены в доверительный интервал. $p$ $\alpha$ $1-\alpha$

Пусть - неизвестный параметр в пространстве параметров , и пусть образец - реализация случайной величины . Для простоты определим доверительный интервал как случайный интервал, так что его вероятность покрытия $\theta$ $\Theta\subseteq\mathbb{R}$ $\mathbf{x}=(x_1,\ldots,x_n)\in\mathcal{X}^ n\subseteq\mathbb{R}^n$ $\mathbf{X}=(X_1,\ldots,X_n)$ $I_\alpha(\mathbf{X})$ (Аналогичным образом можно рассмотреть более общие интервалы, где вероятность покрытия либо ограничена, либо приблизительно равна

P_{θ} (θ \in I_{α} (X)) = 1 - α for all α \in (0, 1) .

$P_\theta(\theta\in I_\alpha(\mathbf{X}))= 1-\alpha\qquad\mbox{for all }\alpha\in(0,1).$

1 - α

$1-\alpha$ . Рассуждения аналогичны.)

Рассмотрим двусторонний тест точечной нулевой гипотезы против альтернативной области отклонения представляет собой набор $H_0(\theta_0): \theta=\theta_0$ . Пусть обозначает p-значение теста. Для любого , отклоняется на уровне ; если $H_1(\theta_0): \theta\neq \theta_0$ $\lambda(\theta_0,\mathbf{x})$ $\alpha\in(0,1)$ $H_0(\theta_0)$ $\alpha$ . Областьуровня $\lambda(\theta_0,x)\leq\alpha$ $\alpha$ которое приводит к отклонению : $\mathbf{x}$ $H_0(\theta_0)$

R_{α} (θ_{0}) = {x \in R^{n} : λ (θ_{0}, x) \leq α} .

$R_\alpha(\theta_0)=\{\mathbf{x}\in\mathbb{R}^n: \lambda(\theta_0,\mathbf{x})\leq\alpha\}.$

Теперь рассмотрим семейство двусторонних тестов с p-значениями для . Для такого семейства мы можем определить инвертированную область отклонения $\lambda(\theta,\mathbf{x})$ $\theta\in\Theta$

Q_{α} (x) = {θ \in Θ : λ (θ, x) \leq α} .

$Q_\alpha(\mathbf{x})=\{\theta\in\Theta: \lambda(\theta,\mathbf{x})\leq\alpha\}.$

При любом фиксированном , отклоняется , если , что происходит тогда и только тогда , когда , то есть Если тест основан на тестовой статистике с полностью заданным абсолютно непрерывным нулевым распределением, то $\theta_0$ $H_0(\theta_0)$ $\mathbf{x}\in R_\alpha(\theta_0)$ $\theta_0\in Q_\alpha(\mathbf{x})$

x \in R_{α} (θ_{0}) \Leftrightarrow θ_{0} \in Q_{α} (x) .

$\mathbf{x}\in R_\alpha(\theta_0) \Leftrightarrow \theta_0\in Q_\alpha(\mathbf{x}).$

при

. Тогда

Поскольку это уравнение верно для любого

λ (θ_{0}, X) \sim U (0, 1)

$\lambda(\theta_0,\mathbf{X})\sim \mbox{U}(0,1)$

H_{0} (θ_{0})

$H_0(\theta_0)$

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (λ (θ_{0}, X) \leq α) = α .

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\lambda(\theta_0,\mathbf{X})\leq\alpha)=\alpha.$

θ_{0} \in Θ

$\theta_0\in\Theta$ и так как уравнение над ней следует , что

отсюда следует , что случайный набор

всегда покрывает истинный параметр

с вероятностью

обозначает дополнение к

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (θ_{0} \in Q_{α} (X)),

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\theta_0\in Q_\alpha(\mathbf{X})),$

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0}

$\theta_0$

. Следовательно, пусть

α

$\alpha$

Q_{α}^{C} (x)

$Q_\alpha^C(\mathbf{x})$

, для всех

имеем

что означает, что дополнением к области перевернутого отклонения является

доверительный интервал для

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0} \in Θ

$\theta_0\in\Theta$

P_{θ_{0}} (θ_{0} \in Q_{α}^{C} (X)) = 1 - α,

$P_{\theta_0}(\theta_0\in Q_\alpha^C(\mathbf{X}))=1-\alpha,$

1 - α

$1-\alpha$

θ

$\theta$

$z$ $\theta$ $\bar{x}$ $\sigma=1$ $H_0(\theta)$ $(\bar{x},\theta)$ $R_{0.05}(-0.9)=(-\infty,-1.52)\cup(-0.281,\infty)$ $I_{0.05}(1/2)=Q_{0.05}^C(1/2)=(-0.120,1.120)$

(Многое из этого взято из моей кандидатской диссертации .)

Теперь для «нет»

$\theta$ $X$ . Обычно такие интервалы не соответствуют тесту.

Это явление связано с проблемами, связанными с тем, что такие интервалы не являются вложенными, а это означает, что интервал 94% может быть короче интервала 95%. Подробнее об этом см. Раздел 2.5 этой моей недавней статьи (появится в Бернулли).

И второе "нет"

$\theta_0=0$ может быть отклонен с помощью теста , даже если 0 входит в доверительный интервал. Это не противоречит приведенному выше «да», так как используются разные статистические данные.

И иногда "да" не очень хорошая вещь

Как указывает f Коппенс в комментарии, иногда интервалы и тесты имеют несколько противоречивые цели. Мы хотим короткие интервалы и тесты с высокой мощностью, но самый короткий интервал не всегда соответствует тесту с самой высокой мощностью. Некоторые примеры этого см. В этой статье (многомерное нормальное распределение), или в этом (экспоненциальное распределение), или в разделе 4 моей диссертации .

Байесовцы могут также сказать, да и нет

Несколько лет назад я разместил здесь вопрос о том, существует ли эквивалентность тестового интервала также в байесовской статистике. Короткий ответ: при стандартном тестировании байесовских гипотез ответом будет «нет». Немного переформулировав проблему тестирования, можно получить ответ «да». (Мои попытки ответить на мой собственный вопрос в конечном итоге превратились в бумагу !)

— MånsT
источник

Хороший ответ (+1) и (вы частично делаете это) может быть полезно указать на тот факт, что иногда доверительные интервалы и проверки гипотез имеют (потенциально) противоречивые цели: каждый пытается найти доверительный интервал «как можно меньше», в то время как для проверки гипотезы пытаются найти критическую область «настолько мощную, насколько это возможно».

@fcoppens: Спасибо за предложение! Я обновил свой ответ несколькими строчками об этом.

— MånsT

Отличный тезис! Вы также работали на интервале Стерна?

@fcoppens: Да, я немного поработал над интервалом Стерна, в основном в этой статье

— MånsT

T_{1} = (\hat{p} - p) / \sqrt{\hat{p} (1 - \hat{p}) / n}

$T_1=(\hat{p}-p)/\sqrt{\hat{p}(1-\hat{p})/n}$

T_{2} = (\hat{p} - p) / \sqrt{p (1 - p) / n}

$T_2=(\hat{p}-p)/\sqrt{p(1-p)/n}$

$\alpha$ $\leq \alpha$

— Бьерн
источник