Значение p является случайной величиной.
При (по крайней мере для непрерывно распределенной статистики) значение p должно иметь равномерное распределениеH0
Для согласованного теста при значение p должно доходить до 0 в пределе при увеличении размеров выборки до бесконечности. Точно так же, по мере увеличения размеров эффекта, распределение значений p также должно стремиться к сдвигу в сторону 0, но оно всегда будет «распространяться».H1
Понятие «истинного» p-значения для меня звучит глупо. Что бы это значило, под или H 1 ? Вы можете, например, сказать, что вы имеете в виду « среднее значение распределения значений р при некотором заданном размере эффекта и размере выборки », но тогда в каком смысле у вас есть конвергенция, когда разброс должен уменьшаться? Это не значит, что вы можете увеличить размер выборки, пока вы держите его постоянным.H0H1
H1 . Значения р почти одинаковы, когда размер выборки невелик, а распределение медленно концентрируется к 0 при увеличении размера образца.
Именно так и должны себя вести p-значения - для ложного нуля, когда размер выборки увеличивается, p-значения должны становиться более концентрированными при низких значениях, но нет ничего, что предполагало бы, что распределение значений, которое оно принимает, когда вы сделайте ошибку типа II - когда значение p выше, чем бы ни был ваш уровень значимости - должно каким-то образом оказаться «близким» к этому уровню значимости.
α=0.05
Часто полезно учитывать, что происходит как с распределением какой-либо тестовой статистики, которую вы используете в альтернативе, так и с тем, что применение cdf под нулем как преобразование к этому будет делать с распределением (которое даст распределение p-значения в конкретная альтернатива). Когда вы думаете в этих терминах, часто нетрудно понять, почему поведение такое, какое есть.
Проблема в том, что я вижу ее не столько в том, что вообще есть какая-то внутренняя проблема с p-значениями или проверкой гипотез, но скорее в том, является ли проверка гипотез хорошим инструментом для вашей конкретной проблемы или что-то более подходящее в любом конкретном случае - это не ситуация для широкой полемики, а вопрос тщательного рассмотрения вопросов, которые проверяют гипотезы, и конкретных потребностей ваших обстоятельств. К сожалению, тщательное рассмотрение этих вопросов проводится редко - слишком часто возникает вопрос в форме "какой тест я использую для этих данных?" без учета того, каким может быть интересующий вопрос, не говоря уже о том, является ли какой-либо тест на гипотезу хорошим способом решения этой проблемы.
Одна трудность заключается в том, что проверки гипотезы широко неправильно понимаются и широко используются; люди очень часто думают, что говорят нам то, чего не делают. Значение p, возможно, является единственной наиболее неправильно понятой проверкой гипотез.