Р-значение определяется вероятностью получения тест-статистики, по крайней мере, такой же экстремальной, как и наблюдаемая, при условии, что нулевая гипотеза верна. Другими словами,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
И давайте предположим, что мы наблюдаем статистическое значение теста 60. И здесь мы знаем из рисунка, что это значение очень маловероятно . Поэтому в идеале я хотел бы использовать статистическую процедуру, которую я использую (скажем, p-значение), чтобы выявить это. Но если мы вычислим значение p как определено, мы получим довольно высокое значение p
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Если бы я не знал о распределении, я бы заключил, что то, что я наблюдал, просто случайно. Но мы знаем, что это не так.
Я предполагаю, что у меня есть вопрос: почему при вычислении p-значения мы вычисляем вероятность для значений, «по крайней мере, таких же экстремальных, как» наблюдаемых? И если я сталкиваюсь с ситуацией, подобной той, которую я смоделировал выше, каково альтернативное решение?