Ничего подобного, чтобы ответить на действительно старый вопрос, но здесь идет ....
Значения р являются почти действительными проверками гипотез. Это слегка адаптированный отрывок из книги теории вероятностей Джейнса 2003 года (Повторяющиеся эксперименты: вероятность и частота). Предположим, что у нас есть нулевая гипотеза которую мы хотим проверить. У нас есть данные D и априорной информации I . Предположим, что существует некоторая неопределенная гипотеза H A, с которой мы будем проверять H 0 . Отношение шансов сзади для H A против H 0 тогда определяется как:H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Теперь первый член в правой части не зависит от данных, поэтому данные могут влиять на результат только через второй член. Теперь мы всегда можем придумать альтернативную гипотезу такую, что P ( D | H A I ) = 1 - гипотеза «идеального соответствия». Таким образом, мы можем использовать 1HAP(D|HAI)=1 как мера того, насколько хорошо данные могут поддержать любую альтернативную гипотезу над нулем. Нет альтернативной гипотезы о том, что данные могут поддерживать болееH0более чем на11P(D|H0I)H0 . Мы также можем ограничить класс альтернатив, и изменение состоит в том, что1заменяется максимальным правдоподобием (включая нормализующие константы) внутри этого класса. ЕслиP(D|H0I)начинает становиться слишком малым, то мы начинаем сомневаться в нуле, потому что число альтернатив междуH0иHAрастет (включая некоторые с незначительными априорными вероятностями). Но это очень близко к тому, что делается с p-значениями, но с одним исключением: мы не вычисляем вероятность дляt(1P(D|H0I)1P(D|H0I)H0HA для некоторой статистики t ( D ) и некоторой «плохой» области статистики. Мы рассчитываем вероятность для D - фактически имеющейся у нас информации, а не некоторого ее подмножества t ( D ) .t(D)>t0t(D)Dt(D)
Другая причина, по которой люди используют p-значения, заключается в том, что они часто составляют «правильный» тест гипотезы, но их легче вычислить. Мы можем показать это на очень простом примере проверки нормального среднего с известной дисперсией. У нас есть данные с предполагаемой моделью x i ∼ N o r m a l ( μ , σ 2 ) (часть предшествующей информации I ). Мы хотим проверить H 0 : μ = μ 0D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0, Тогда мы имеем, после небольшого расчета:
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Где иs2=1x¯¯¯=1N∑Ni=1xi. Это показываетчто максимальное значениеP(D|H0I)будет достигнутокогдаμ0= ¯ х . Максимальное значение:s2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Итак, мы берем соотношение этих двух, и получаем:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Где - это «Z-статистика». Большие значения| z| ставить под сомнение нулевую гипотезу относительно гипотезы о нормальном среднем значении, которое наиболее сильно подтверждается данными. Мы также можем видетьчто ¯ х является только частью данныхкоторые необходимы, итаким образомявляется достаточной статистикой для испытания.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
Подход p-значения к этой проблеме почти такой же, но наоборот. Начнем с достаточной статистики , и мы caluclate его распределение выборки, которая легко показать, ¯ X ~ N о г т л ( μ , сг 2x¯¯¯-где я использовал заглавную буквучтобы отличить случайную величину¯Xот наблюдаемого значения¯х. Теперь нам нужно найти регион, который ставит под сомнение нулевую гипотезу: легко увидеть, что это те регионы, где| ¯X-μ0| большой. Таким образом, мы можем рассчитать вероятность того, что| ¯X-μ0| ≥| ¯х-μ0| как мера того, насколько далеко наблюдаемые данные от нулевой гипотезы. Как и раньше, это простой расчет, и мы получаем:X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
|z|
Хотя в этом примере это обе простые вещи, в более сложных случаях это не всегда так просто. В некоторых случаях может быть проще выбрать правильную статистику для использования и рассчитать распределение выборки. В других может быть легче определить класс альтернатив и максимизировать этот класс.
Этот простой пример учитывает большое количество тестирования на основе p-значений просто потому, что многие тесты на гипотезы относятся к «приблизительной нормальной» разновидности. Он также дает приблизительный ответ на вашу проблему с монетами (используя нормальное приближение к биному). Это также показывает, что значения p в этом случае не приведут вас в заблуждение, по крайней мере, с точки зрения проверки одной гипотезы. В этом случае мы можем сказать, что значение p является показателем против нулевой гипотезы.
0.193.870.05196.830.12.330.052.78