Я могу продемонстрировать, что это предвзято (я думаю), но я не могу объяснить, почему. Я надеюсь, что кто-то может увидеть мой ответ и помочь объяснить его больше.
Как и во многих метаанализах и размещенном вами изображении, многие люди интерпретируют BESD как: если бы вы делили медиану на две переменные, вы бы точно поместили людей в «правильные» ячейки таблицы непредвиденных обстоятельств 2 x 2 с заданным процентом время.
Поэтому, если , люди могут сказать: «Учитывая это наблюдаемое , вы можете думать об этом так: люди, находящиеся выше медианы в X, также будут выше медианы в Y в 70% случаев. " Вот как Краус (1995, стр. 69) интерпретирует это (он полагается на гипотетическую ситуацию, когда одна переменная действительно дихотомична, а другая - медиана):.50+r/2=.70r
Люди часто используют медицинские метафоры, тоже: «Эта соответствует разнице в 40 процентных пункта между людьми в контроле и экспериментальных условиях.»r
Чтобы увидеть, является ли предвзятая интерпретация медиана-расщепления предвзятой, я смоделировал популяцию в 1 000 000 случаев, где истинная популяция . Затем я собрал 100 человек из этой популяции, рассчитал «правильный показатель» BESD (т. Е., ), а затем вычислил фактические медианные доли клеток для таблицы непредвиденных обстоятельств 2 × 2, как описано выше для классификации по категориям. люди "правильно". Я сделал это 10000 раз.r=.38.50+r/2
Затем я взял среднее и стандартное отклонение каждого из этих векторов длиной 10000. Код:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
Основываясь на BESD, мы получаем эту таблицу, где v1
и v2
ссылаемся на переменные и low
и high
ссылаемся ниже и выше медианы соответственно:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
Основываясь на фактическом выполнении медианного разделения с необработанными данными, мы получаем следующую таблицу:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
Таким образом, хотя кто-то может утверждать, используя BESD, что существует «разница в 38 процентных пунктов в контрольной и экспериментальной», фактическое медианное разделение имеет это число в 24.
Я не уверен, почему это происходит, или если это зависит от размера выборки и корреляции (можно легко сделать больше симуляций, чтобы выяснить это), я думаю, это показывает, что это предвзято. Я был бы рад, если бы кто-то мог дать математическое, а не вычислительное объяснение.