Если распределение тестовой статистики является бимодальным, означает ли p-значение что-либо?

Р-значение определяется вероятностью получения тест-статистики, по крайней мере, такой же экстремальной, как и наблюдаемая, при условии, что нулевая гипотеза верна. Другими словами,

P (X \geq t | H_{0})

$P( X \ge t | H_0 )$ Но что если тест-статистика является бимодальной по распределению? означает ли p-значение что-либо в этом контексте? Например, я собираюсь смоделировать некоторые бимодальные данные в R:

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

введите описание изображения здесь

И давайте предположим, что мы наблюдаем статистическое значение теста 60. И здесь мы знаем из рисунка, что это значение очень маловероятно . Поэтому в идеале я хотел бы использовать статистическую процедуру, которую я использую (скажем, p-значение), чтобы выявить это. Но если мы вычислим значение p как определено, мы получим довольно высокое значение p

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Если бы я не знал о распределении, я бы заключил, что то, что я наблюдал, просто случайно. Но мы знаем, что это не так.

Я предполагаю, что у меня есть вопрос: почему при вычислении p-значения мы вычисляем вероятность для значений, «по крайней мере, таких же экстремальных, как» наблюдаемых? И если я сталкиваюсь с ситуацией, подобной той, которую я смоделировал выше, каково альтернативное решение?

— Alby
источник

Добро пожаловать в удивительный мир тестирования значимости нулевой гипотезы! Серьезно: я, честно говоря, не могу вспомнить тестовую статистику, которая имеет бимодальное распределение при нулевой гипотезе (которая является тем, что нам небезразлично в NHST). +1 за интересный вопрос, но я сомневаюсь в его практической значимости ... разве у вас есть конкретный пример?

— Стефан Коласса

Я согласен с @StephanKolassa; конечно, есть распределения данных, которые являются бимодальными, но что это за тестовая статистика?

— Питер Флом - Восстановить Монику

Я бы не согласился с характеристикой p-значений, предложенной первой формулой. Правильный смысл «по крайней мере, как крайность» в теории Неймана-Пирсона заключается в относительной вероятности, а не в обычном упорядочении вещественных чисел (как указано в формуле). Они эквивалентны во многих стандартных ситуациях тестирования, но резко отличаются, когда распределение выборки является бимодальным. Я думаю, что это различие удовлетворительно разрешит вопрос.

— whuber

@whuber Не могли бы вы рассказать об этом немного, может быть, на простом примере?

— Сабольч

@Szabolcs Пусть - бета- распределение а для пусть - равная смесь и ( ). PDF является однородным, в то время как PDF, скажем, является бимодальным с пиками в . Предположим, . Область отвержения для испытания LR из против состоит из двух интервалов , далекие от экстремумов --one около

G_{θ}

$G_\theta$

(θ, θ)

$(\theta,\theta)$

θ \geq 1

$\theta\ge 1$

F_{θ} (x)

$F_\theta(x)$

G_{θ} (x)

$G_\theta(x)$

G_{θ} (- x)

$G_\theta(-x)$

x \in [- 1, 1]

$x \in [-1,1]$

F_{1}

$F_1$

F_{2}

$F_2$

\pm 1 / 2

$\pm 1/2$

X \sim F_{θ}

$X\sim F_\theta$

H_{0} : X \sim F_{1}

$H_0: X\sim F_1$

H_{A} : X \sim F_{2}

$H_A: X\sim F_2$

\pm 1

$\pm 1$

1 / 2

$1/2$ а другой около потому что доказательства самые сильные там.

- 1 / 2

$-1/2$

θ = 2

$\theta=2$

— whuber

Что делает тестовую статистику «экстремальной», зависит от вашей альтернативы, которая налагает порядок (или, по крайней мере, частичный порядок) на пространство выборки - вы стремитесь отклонить эти случаи наиболее согласованно (в смысле, измеряемом тестовой статистикой) с альтернатива.

Когда у вас действительно нет альтернативы, чтобы дать вам что-то, с чем можно было бы наиболее соответствовать, у вас, по сути, остается вероятность дать порядок, чаще всего наблюдаемый в точном тесте Фишера. Там вероятность результатов (таблицы 2х2) при нулевых порядках тестирует статистику (так что «экстремум» - это «низкая вероятность»).

Если бы вы оказались в ситуации, когда крайний левый (или крайний правый, или оба) вашего бимодального нулевого распределения был связан с видом альтернативы, который вас интересовал, вы бы не стали отклонять тестовую статистику 60. Но если вы находитесь в ситуации, когда у вас нет такой альтернативы, тогда 60 - это ненормально - у нее низкая вероятность; значение 60 не соответствует вашей модели и может привести к отклонению.

[Это будет рассматриваться некоторыми как одно из главных различий между проверкой гипотез Фишера и Неймана-Пирсона. Вводя явную альтернативу и соотношение правдоподобий, низкая вероятность при нулевом значении не обязательно заставит вас отказаться в рамках Неймана-Пирсона (если он работает относительно хорошо по сравнению с альтернативой), тогда как для Фишера у вас на самом деле нет альтернативы, и вероятность под нулем - это то, что вас интересует.]

Я не утверждаю, что любой из этих подходов является правильным или неправильным - вы сами решаете, против каких альтернатив вы стремитесь, будь то конкретный или просто что-то, что маловероятно при нулевом. Когда вы знаете, чего хотите, все остальное (включая то, что означает «по крайней мере, как крайность») в значительной степени следует из этого.

— Glen_b - Восстановить Монику
источник