Непонимание P-значения?

16

Итак, я много читал о том, как правильно интерпретировать P-значение, и из того, что я прочитал, p-значение НИЧЕГО не говорит о вероятности того, что нулевая гипотеза верна или неверна. Однако при прочтении следующего утверждения:

Значение p представляет вероятность допустить ошибку типа I или отклонить нулевую гипотезу, если она верна. Чем меньше значение p, тем меньше вероятность того, что вы ошибочно отклоните нулевую гипотезу.

РЕДАКТИРОВАТЬ: И затем 5 минут спустя я прочитал:

Неправильные интерпретации значений P очень распространены. Наиболее распространенной ошибкой является интерпретация значения P как вероятности совершения ошибки путем отклонения истинной нулевой гипотезы (ошибка типа I).

Это смутило меня. Какой из них правильный? И кто-нибудь может объяснить, как правильно интерпретировать значение p и как оно правильно соотносится с вероятностью ошибки типа I?

hypothesis-testing p-value

— rb612
источник

1

The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueЗначение p представляет априорную вероятность ошибки типа I, то есть отклонения нулевой гипотезы в предположении, что она верна.

— ttnphns

4

@Paul: вероятность отклонения нулевого условия при условии, что значение null равно true, является вероятностью ошибки типа I, это не то же самое, что значение p. Вероятность ошибки типа I равна (для непрерывных случайных величин) выбранному уровню значимости, см. Также мой ответ ниже.

Да, теперь я вижу, вы абсолютно правы.

— Пол

4

@fcoppens Вероятность ошибки типа I равна только предварительно выбранному уровню альфа, если вы при условии, что нулевая гипотеза верна. В безусловном случае вы не знаете, является ли значение NULL истинным или ложным, и поэтому вы можете указать вероятность ошибки типа I только в том случае, если вы указали предыдущую вероятность для истинного значения NULL.

— Майкл Лью - восстановить Монику

@ Майкл Лью: Это условие на ноль упоминается в моем ответе ниже?

25

Из-за ваших комментариев я сделаю два отдельных раздела:

р-значение

В тестировании статистических гипотез вы можете найти «статистические доказательства» альтернативной гипотезы; Как я объяснил в разделе Что следует, если мы не сможем отвергнуть нулевую гипотезу? , это похоже на «доказательство от противного» в математике.

Поэтому, если мы хотим найти «статистическое доказательство», мы предполагаем обратное, которое мы обозначаем того, что мы пытаемся доказать, что мы называем . После этого мы рисуем образец, а из него вычисляем так называемую статистику теста (например, t-значение в t-тесте). $H_0$ $H_1$

Затем, поскольку мы предполагаем, что истинно и что наша выборка случайным образом взята из распределения под , мы можем вычислить вероятность наблюдения значений, которые превышают или равны значению, полученному из нашей (случайной) выборки. Эта вероятность называется р-значением. $H_0$ $H_0$

Если это значение «достаточно мало», то есть меньше, чем уровень значимости, который мы выбрали, то мы отвергаем и считаем, что «статистически доказано». $H_0$ $H_1$

В этом способе важно несколько вещей:

мы получили вероятности в предположении, что верно $H_0$
мы взяли случайную выборку из искажения, которое предполагалось при $H_0$
мы решили найти доказательства для если тест-статистика, полученная из случайной выборки, имеет низкую вероятность превышения. Поэтому не исключено, что оно превышено, пока истинно, и в этих случаях мы делаем ошибку типа I. $H_1$ $H_0$

Итак, что же такое ошибка типа I: ошибка типа I возникает, когда выборка, случайным образом взятая из , приводит к выводу, что является ложным, тогда как в действительности оно истинно. $H_0$ $H_0$

Обратите внимание , что это означает , что р-значение не вероятность ошибки типа I . Действительно, ошибка типа I - это неправильное решение теста, и решение может быть принято только путем сравнения p-значения с выбранным уровнем значимости, с одним только p-значением решение не может быть принято, это только после сравнения p-значение для выбранного уровня значимости, по которому принимается решение , и пока решение не принято, ошибка типа I даже не определяется.

Что тогда является p-значением? Потенциально неправильное отклонение связано с тем, что мы рисуем случайную выборку под , поэтому может случиться так, что у нас будет «неудача» при рисовании выборки, и эта «неудача» приведет ложное отклонение . Таким образом, значение p (хотя это не совсем правильно) больше похоже на вероятность получения «плохой выборки». Правильная интерпретация значения p состоит в том, что это вероятность того, что тестовая статистика превышает или равна значению тестовой статистики, полученной из случайно выбранной выборки при $H_0$ $H_0$ $H_0$ $H_0$

Скорость ложного обнаружения (FDR)

Как объяснено выше, каждый раз, когда нулевая гипотеза отклоняется, каждый рассматривает это как «статистическое доказательство» для . Итак, мы нашли новое научное знание, поэтому оно называется открытием . Выше также объясняется, что мы можем делать ложные открытия (то есть ложно отвергать ), когда совершаем ошибку типа I. В этом случае у нас ложное убеждение в научной истине. Мы только хотим обнаружить действительно правдивые вещи, и поэтому стараемся свести к минимуму ложные открытия, то есть каждый будет контролировать ошибку типа I. Нетрудно понять, что вероятность ошибки типа I является выбранным уровнем значимости . Поэтому для того , чтобы контролировать наличие ошибок I типа, один фиксирует $H_1$ $H_0$ $\alpha$ $\alpha$ уровень, отражающий вашу готовность принять «ложное доказательство».

Интуитивно понятно, что это означает, что если мы рисуем огромное количество образцов, и с каждым образцом мы проводим тест, то доля этих тестов приведет к неверному выводу. Важно отметить, что мы «усредняем по многим выборкам» ; так же тест, много образцов. $\alpha$

$\alpha$

$\frac{FD}{D}$ $H_0$

Таким образом, вероятность ошибки типа I связана с выполнением одного и того же теста на разных образцах. Для огромного количества выборок вероятность ошибки типа I будет сходиться к количеству выборок, ведущих к ложному отклонению, деленному на общее количество взятых выборок .

$H_0$

Обратите внимание, что, сравнивая два абзаца выше:

Контекст другой; один тест и много образцов против многих тестов и один образец.
Знаменатель для вычисления вероятности ошибки типа I явно отличается от знаменателя для вычисления FDR. Числители в некотором роде похожи, но имеют другой контекст.

$H_0$ $0.38 \times 1000$

— Greenstick
источник

5

The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0

Это так? Разве это не «равно или превышает»? P-значение - это вероятность того, что при истинном значении H0 мы наблюдаем разницу или связь, равную или превышающую реально наблюдаемую.

— ttnphns

@ttnphns Для непрерывной статистики теста нет разницы, потому что мера точки равна нулю. Для дискретной тестовой статистики вы правы (+1). Я изменил текст соответственно.

1

Вы проводите очень полезное различие между P-значениями и частотой появления ошибок типа I, но я думаю, что вам нужно быть более осторожным со словом «доказано». На мой взгляд, добавление модификатора «статистически» не достаточно смягчает его.

— Майкл Лью - восстановить Монику

1

Вы имели дело с доказательством так, как будто оно имеет только двоичное состояние: существует и не существует. В стандартном понимании нестатистических доказательств понятие слова имеет поэтапное существование, и оно сложнее, чем одно измерение силы может охватить. Трудность возникает из-за несовместимости соображений о частоте ошибок с обычными интерпретациями доказательств. Мне было бы очень интересно прочитать любой отчет, который фиксирует недвоичное толкование «доказательств» в рамках FDR. (Я еще не видел.)

— Майкл Лью - восстановите Монику

1

Спасибо за исправление. Я внес соответствующие изменения вчера вечером и зачислил на ваш пост.

— Антони Пареллада

4

Первое утверждение не совсем верно.

Из изящной статьи о недопонимании значимости: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

«[Это утверждение] может выглядеть аналогично определению ошибки типа I (т. Е. Вероятности отклонения H0, хотя на самом деле оно истинно), но фактически отклонив H0, это решение будет неверным, если и только если H0 были верны. Таким образом, вероятность того, что вы принимаете неправильное решение, равна p (H0), и эта вероятность ... не может быть получена с помощью проверки значимости нулевой гипотезы. "

Проще говоря, для оценки вероятности того, что вы неправильно отклонили H0, вам требуется вероятность того, что H0 истинно, которую вы просто не можете получить с помощью этого теста.

— Генри Б
источник

Спасибо! Поэтому, когда я читаю первую часть statisticsdonewrong.com/p-value.html , автор приходит к выводу, что FDR составляет 38%, поэтому вероятность ошибки типа I составляет 38%?

— rb612

FDR - это показатель ложного обнаружения, и он сильно отличается от ошибки типа I, поэтому ответа на ваш вопрос нет. FDR связан с несколькими тестами, т . Е. Когда вы выполняете несколько тестов на одном и том же образце, см. Stats.stackexchange.com/questions/164181/… . FDR является альтернативой Familywise Error Rate, но для объяснения того, что количество символов в комментарии слишком ограничено.

Я добавил второй раздел в своем ответе для объяснения FDR.

1

Так же, как невозможно определить вероятность истинности H0 без предварительного, невозможно определить FDR без предварительного. Будьте осторожны в том, как вы интерпретируете документы FDR, потому что используемые в них априоры могут не обязательно соответствовать вашим экспериментальным обстоятельствам.

— Майкл Лью - восстановить Монику

1

Правильная интерпретация p-значения - это условная вероятность исхода, по крайней мере, столь же благоприятная для альтернативной гипотезы, как наблюдаемое значение (по крайней мере, как «крайняя»), предполагая, что нулевая гипотеза верна . Неправильные интерпретации обычно включают в себя либо предельную вероятность, либо изменение условия:

\begin{aligned} p-value = P (At least as extreme as observed outcome | H_{0}) \neq P (Type I error) . \end{aligned}

$\begin{equation} \begin{aligned} \text{p-value} = \mathbb{P}(\text{At least as extreme as observed outcome} | H_0) \neq \mathbb{P}(\text{Type I error} ). \end{aligned} \end{equation}$

— Восстановить Монику
источник

-1

Значение p позволяет нам определить, может ли нулевая гипотеза (или заявленная гипотеза) быть отклонена или нет. Если значение p меньше уровня значимости, α, то это представляет статистически значимый результат, и нулевая гипотеза должна быть отклонена. Если значение p больше уровня значимости, α, нулевая гипотеза не может быть отклонена. Это и есть причина поиска значения p, если вы используете таблицу или онлайн-калькулятор, например калькулятор значения p , чтобы найти значение p в статистике теста.

Теперь я знаю, что вы упомянули ошибки типа I и типа II. Это действительно не имеет ничего общего с p-значением. Это связано с исходными данными, такими как размер выборки и значения, полученные для данных. Например, если размер выборки слишком мал, это может привести к ошибке типа I.

— user1445657
источник

2

-1. Я извиняюсь за то, что приветствую вас на нашем сайте с отрицательным голосом, но этот ответ явно неверен: это просто не тот случай, когда значение p является вероятностью истинности нулевой гипотезы. Это широко обсуждается во многих потоках о p-значениях и проверках гипотез, таких как stats.stackexchange.com/questions/31 .

— whuber

1

Я немного изменил исходный ответ, чтобы сделать его более точным.

— user1445657