Удвоение хвостов в тесте перестановки с двумя образцами

Предположим, у нас есть две выборки, и мы хотим определить, взяты ли они из одного и того же распределения, причем выборки A, B состоят из нескольких целых чисел.

Если мы проверим это с помощью теста перестановки с двумя выборками, в частности, рассмотрим перестановки, где различия в значениях выборок столь же велики, как и наблюдаемая разница: есть ли основания полагать, что мы можем рассчитать двусторонний p- ценность, глядя на один хвост и удваивая вероятность?

Это то, что говорится в моих конспектах, но я не понимаю, почему мы можем предположить, что хвосты симметричны (или почему это не влечет за собой такое предположение). Объяснений не последовало.

permutation-test

— Харри
источник

Распределение перестановки вашей тестовой статистики не обязательно будет симметричным, поэтому вы не можете сделать это таким образом. Вместо этого вы добавляете оба хвоста. В вашем случае двух независимых выборок нулевая гипотеза состоит в том, что два параметра местоположения равны. Предполагая непрерывные распределения и равный разброс в обеих группах, мы имеем взаимозаменяемость при нулевой гипотезе. Тестовая статистика - это разница в средних значениях, где под нулем. $T$ $E(T) = 0$

Значение для в исходном образце равно , а его значения для перестановок . - это сокращение от «количества» чего-либо, например, - это число тестовых статистик перестановок. Тогда значение для двусторонней гипотезы равно , где $T$ $T_{\text{emp}}$ $T^{\star}$ $\sharp(\cdot)$ $\sharp(T^{\star})$ $p$ $p_{\text{ts}} = p_{\text{left}} + p_{\text{right}}$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}}))}{\sharp(T^{\star})}$

(при условии, что у нас есть полное распределение перестановок). Давайте сравним оба подхода для случая двух независимых выборок, когда мы можем вычислить точное (полное) распределение перестановок.

set.seed(1234)
Nj   <- c(9, 8)                      # group sizes
DVa  <- rnorm(Nj[1], 5, 20)^2        # data group 1
DVb  <- rnorm(Nj[2], 10, 20)^2       # data group 2
DVab <- c(DVa, DVb)                  # data from both groups
IV   <- factor(rep(c("A", "B"), Nj)) # grouping factor
idx  <- seq(along=DVab)              # all indices
idxA <- combn(idx, Nj[1])            # all possible first groups

# function to calculate test statistic for a given permutation x
getDM <- function(x) { mean(DVab[x]) - mean(DVab[!(idx %in% x)]) }
resDM <- apply(idxA, 2, getDM)       # test statistic for all permutations
diffM <- mean(DVa) - mean(DVb)       # empirical stest statistic

$p$ coin $p_{\text{left}} \neq p_{\text{right}}$ $p_{ts}$

> (pL <- sum(resDM <= min(diffM, -diffM)) / length(resDM))  # left p-value
[1] 0.1755245

> (pR <- sum(resDM >= max(diffM, -diffM)) / length(resDM))  # right p-value
[1] 0.1585356

> 2*pL        # doubling left p-value
[1] 0.351049

> 2*pR        # doubling right p-value
[1] 0.3170712

> pL+pR       # two-sided p-value
[1] 0.3340601

> sum(abs(resDM) >= abs(diffM)) / length(resDM)  # two-sided p-value (more concise)
[1] 0.3340601

# validate with coin implementation
> library(coin)              # for oneway_test()    
> oneway_test(DVab ~ IV, alternative="two.sided", distribution="exact")
Exact 2-Sample Permutation Test
data:  DVab by IV (A, B) 
Z = 1.0551, p-value = 0.3341
alternative hypothesis: true mu is not equal to 0

$p$

$p_{\text{left}} = \frac{\sharp(T^{\star} \, <= \, \text{min}(T_{\text{emp}}, -T_{\text{emp}})) + 1}{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{right}} = \frac{\sharp(T^{\star} \, >= \, \text{max}(T_{\text{emp}}, -T_{\text{emp}})) +1 }{\sharp(T^{\star}) \, + \, 1}$

$p_{\text{ts}} = \frac{\sharp(\text{abs}(T^{\star}) \, >= \, \text{abs}(T_{\text{emp}})) \, + \, 1 }{\sharp(T^{\star}) + 1}$

$p$

— каракал
источник

T

$T$

E (T) = 0

$E(T) = 0$

Спасибо, это улучшение. Не могли бы вы объяснить, как статистика может не иметь симметричного распределения в этом предположении?

— whuber

T^{⋆} = - 1, .5, .5

$T^{\star} = {-1, .5, .5}$

Спасибо за разъяснение: я сейчас следую логике.

— whuber