Какая доля повторных экспериментов будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента?

Давайте придерживаться идеальной ситуации со случайной выборкой, гауссовым населением, равными дисперсиями, без P-хакерства и т. Д.

Шаг 1. Вы проводите эксперимент, скажем, сравнивая два выборочных средних, и вычисляете 95% доверительный интервал для разницы между двумя совокупными средними.

Шаг 2. Вы проводите еще много экспериментов (тысячи). Разница между средними значениями будет варьироваться от эксперимента к эксперименту из-за случайной выборки.

Вопрос: Какая доля разницы между средними из набора экспериментов на шаге 2 будет лежать в пределах доверительного интервала на шаге 1?

Это не может быть ответа. Все зависит от того, что произошло на шаге 1. Если этот эксперимент на шаге 1 был очень нетипичным, ответ на вопрос может быть очень низким.

Итак, представьте, что оба шага повторяются много раз (шаг 2 повторяется много раз). Теперь, я думаю, можно предположить, что доля повторных экспериментов в среднем будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента.

Кажется, что ответ на эти вопросы должен быть понят, чтобы оценить воспроизводимость исследований, очень горячая область в настоящее время.

confidence-interval replicability

— Харви Мотульский
источник

Для каждого исходного (шаг 1) эксперимента определите как долю последующих (шаг 2) результатов, которые дают результаты в пределах доверительного интервала исходного результата. Вы хотите вычислить эмпирическое распределение ?

i

$i$

x_{i}

$x_i$

x

$x$

— Мэтью Ганн

Да, вы понимаете, о чем я спрашиваю

— Харви Мотульский

@MatthewGunn спросил, хотите ли вы эмпирическое распределение «доли захвата» для будущих наблюдений. В вашем посте спрашивалось: «... я мог бы подумать, что можно предположить, какая доля повторных экспериментов в среднем имеет величину эффекта в пределах 95% доверительного интервала первого эксперимента» . Это не распределение, а ожидаемое значение (среднее).

Анализ Whuber великолепен, но если вам нужна цитата, то вот статья, в которой подробно обсуждается именно этот вопрос: Cumming & Maillardet, 2006, Доверительные интервалы и тиражирование: куда пойдет следующее значение? , Они называют это процентом захвата доверительного интервала.

— говорит амеба: восстанови Монику

Ответы:

Анализ

Поскольку это концептуальный вопрос, для простоты давайте рассмотрим ситуацию, в которой доверительный интервал строится для среднего с использованием случайная выборка размера и вторая случайная выборка взяты из размера , все из того же нормального распределения. (Если вы , как вы можете заменить s значениями из Студенческого распределения степенями свободы, а на следующий анализ не изменится.) $1-\alpha$

[{\bar{x}}^{(1)} + Z_{α / 2} s^{(1)} / \sqrt{n}, {\bar{x}}^{(1)} + Z_{1 - α / 2} s^{(1)} / \sqrt{n}]

$\left[\bar x^{(1)} + Z_{\alpha/2} s^{(1)}/\sqrt{n}, \bar x^{(1)} + Z_{1-\alpha/2} s^{(1)}/\sqrt{n}\right]$

μ

$\mu$

x^{(1)}

$x^{(1)}$

n

$n$

x^{(2)}

$x^{(2)}$

m

$m$

(μ, σ^{2})

$(\mu,\sigma^2)$

Z

$Z$

t

$t$

n - 1

$n-1$

Вероятность того, что среднее значение второй выборки находится в пределах КИ, определяемой первой,

Pr ({\bar{x}}^{(1)} + \frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} \leq {\bar{x}}^{(1)} + \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) = Pr (\frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} - {\bar{x}}^{(1)} \leq \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) .

$\Pr\left(\bar x^{(1)} + \frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)} \le \bar x^{(1)} + \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right) =\Pr\left(\frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)}-\bar x^{(1)} \le \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right).$

Поскольку среднее значение первого образца не зависит от стандартного отклонения первого образца (это требует нормальности), а второе значение выборки не зависит от первого, разница в выборке означает не зависит от . Более того, для этого симметричного интервала . Поэтому, записывая для случайной величины и возводя в квадрат оба неравенства, рассматриваемая вероятность равна $\bar x^{(1)}$ $s^{(1)}$ $U = \bar x^{(2)} - \bar x^{(1)}$ $s^{(1)}$ $Z_{\alpha/2}=-Z_{1-\alpha/2}$ $S$ $s^{(1)}$

Pr (U^{2} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2} S^{2}) = Pr (\frac{U^{2}}{S^{2}} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2}) .

$\Pr\left(U^2 \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2 S^2\right)= \Pr\left(\frac{U^2}{S^2} \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2\right).$

Законы ожидания подразумевают, что имеет среднее значение и дисперсию $U$ $0$

Var (U) = Var ({\bar{x}}^{(2)} - {\bar{x}}^{(1)}) = σ^{2} (\frac{1}{m} + \frac{1}{n}) .

$\operatorname{Var}(U) = \operatorname{Var}\left(\bar x^{(2)} - \bar x^{(1)}\right) = \sigma^2\left(\frac{1}{m} + \frac{1}{n}\right).$

Поскольку является линейной комбинацией нормальных переменных, оно также имеет нормальное распределение. Поэтому равно раз переменной . Мы уже знали, что является раз переменной . Следовательно, в раз превышает переменную с распределением . Требуемая вероятность определяется распределением F как $U$ $U^2$ $\sigma^2\left(\frac{1}{n} + \frac{1}{m}\right)$ $\chi^2(1)$ $S^2$ $\sigma^2/n$ $\chi^2(n-1)$ $U^2/S^2$ $1/n + 1/m$ $F(1,n-1)$

\begin{matrix} (1) & F_{1, n - 1} (\frac{Z_{1 - α / 2}^{2}}{1 + n / m}) . \end{matrix}

$F_{1,n-1}\left(\frac{Z_{1-\alpha/2}^2}{1 + n/m}\right).\tag{1}$

обсуждение

Интересный случай, когда размер второй выборки такой же, как и у первой, так что и только и определяют вероятность. Здесь приведены значения зависимости от для . $n/m=1$ $n$ $\alpha$ $(1)$ $\alpha$ $n=2,5,20,50$

Графики возрастают до предельного значения при каждом с ростом . Традиционный размер теста отмечен вертикальной серой линией. Для больших значений предельный шанс для составляет около . $\alpha$ $n$ $\alpha=0.05$ $n=m$ $\alpha=0.05$ $85\%$

Понимая этот предел, мы рассмотрим детали небольших размеров выборки и лучше поймем суть вопроса. По мере роста распределение приближается к распределению . В терминах стандартного нормального распределения вероятность приближается $n=m$ $F$ $\chi^2(1)$ $\Phi$ $(1)$

Φ (\frac{Z_{1 - α / 2}}{\sqrt{2}}) - Φ (\frac{Z_{α / 2}}{\sqrt{2}}) = 1 - 2 Φ (\frac{Z_{α / 2}}{\sqrt{2}}) .

$\Phi\left(\frac{Z_{1-\alpha/2}}{\sqrt{2}}\right) - \Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) = 1 - 2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) .$

Например, с , и . Следовательно, предельное значение, достигаемое кривыми при при увеличении будет . Вы можете видеть, что он был почти достигнут для (где вероятность составляет .) $\alpha=0.05$ $Z_{\alpha/2}/\sqrt{2} \approx -1.96/1.41 \approx -1.386$ $\Phi(-1.386) \approx 0.083$ $\alpha=0.05$ $n$ $1 - 2(0.083) = 1 - 0.166=0.834$ $n=50$ $0.8383\ldots$

Для малых соотношение между и дополнительной вероятностью - риск того, что CI не покрывает второе среднее значение - почти идеально является степенным законом. $\alpha$ $\alpha$ Еще один способ выразить это заключается в том, что логарифмическая вероятность является почти линейной функцией . Ограничивающие отношения примерно $\log\alpha$

\log (2 Φ (\frac{Z_{α / 2}}{\sqrt{2}})) \approx - 1.79712 + 0.557203 \log (20 α) + 0.00657704 (\log (20 α))^{2} + \dots

$\log\left(2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right)\right) \approx -1.79712 + 0.557203\log(20 \alpha) + 0.00657704 (\log(20 \alpha))^2 + \cdots$

Другими словами, для больших и где-нибудь около традиционного значения , будет близко к $n=m$ $\alpha$ $0.05$ $(1)$

1 - 0.166 (20 α)^{0.557} .

$1 - 0.166 (20\alpha)^{0.557}.$

(Это очень напоминает мне анализ перекрывающихся доверительных интервалов, который я разместил на /stats//a/18259/919 . Действительно, магическая сила там, , почти аналогична магической силе. здесь . В этот момент вы должны быть в состоянии интерпретировать этот анализ с точки зрения воспроизводимости экспериментов.) $1.91$ $0.557$

Результаты эксперимента

Эти результаты подтверждаются простым моделированием. Следующий Rкод возвращает частоту покрытия, вероятность, вычисленную с помощью , и Z-оценку, чтобы оценить, насколько они различаются. Z-показатели обычно меньше , независимо от (или даже от того, вычисляется ли или CI), что указывает на правильность формулы . $(1)$ $2$ $n, m, \mu, \sigma, \alpha$ $Z$ $t$ $(1)$

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

— Whuber
источник

Вы говорите, что использование t вместо z не будет иметь большого значения. Я верю тебе, но еще не проверил. При небольшом размере выборки два критических значения могут сильно различаться, и распределение t является правильным способом вычисления КИ. Почему вы предпочитаете использовать Z ??

— Харви Мотульский,

Это чисто иллюстративно, а проще. Когда вы используете интересно, что кривые на рисунке начинаются высоко и опускаются до своего предела. В частности, вероятность получения значительного результата в этом случае намного выше для маленьких образцов, чем для больших! Обратите внимание, что проверять нечего, потому что вы можете интерпретировать как процентную точку соответствующего дистрибутива Student t (или любого другого дистрибутива, который вы можете назвать). Ничего не меняется в анализе. Если вы хотите увидеть конкретные эффекты, раскомментируйте строку в коде.

Z

$Z$

t

$t$

Z_{α}

$Z_{\alpha}$ qt

— whuber

+1. Это отличный анализ (и в вашем ответе слишком мало положительных отзывов). Я только что натолкнулся на статью, в которой очень подробно обсуждается этот вопрос, и я подумал, что вас это может заинтересовать: Cumming & Maillardet, 2006, Доверительные интервалы и тиражирование: куда пойдет следующее значение? , Они называют это процентом захвата доверительного интервала.

— амеба говорит восстановить монику

@ Amoeba Спасибо за ссылку. Я особенно ценю один общий вывод: «Репликация является центральной в научном методе, и исследователи не должны закрывать на это глаза только потому, что это делает характерной неопределенность одного исследования».

— whuber

Обновление: Благодаря постоянной дискуссии в родственной теме, теперь я считаю , мои рассуждения в приведенном выше комментарии было не правильно. 95% ДИ имеют 83% «захвата репликации», но это утверждение о повторной выборке и не может быть интерпретировано как предоставление вероятности, обусловленной одним конкретным доверительным интервалом, по крайней мере, без дополнительных предположений. (Возможно, и этот, и предыдущие комментарии лучше удалить, чтобы не запутывать других читателей.)

— говорит амеба Восстановить Монику

[Отредактировано, чтобы исправить ошибку, указанную WHuber.]

Я изменил R-код @ Whuber, чтобы использовать распределение t и график покрытия в зависимости от размера выборки. Результаты ниже. При большом размере выборки результаты соответствуют WHuber'ам.

А вот адаптированный R-код, запускаемый дважды с альфа-значением, установленным на 0,01 или 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

А вот и файл GraphPad Prism , из которого сделан график.

— Харви Мотульский
источник

Я полагаю, что ваши графики не используют распределение t из-за ошибки: вы устанавливаете значение Tвне цикла! Если вы хотите увидеть правильные кривые, просто нарисуйте их напрямую, используя теоретический результат в моем ответе, как указано в конце моего Rкода (вместо того, чтобы полагаться на смоделированные результаты):

curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")

— whuber

@whuber. Хлоп! Конечно ты прав. Затруднительный. Я исправил это. Как вы указали, охват выше с крошечными размерами выборки. (Я исправил симуляции и не пробовал вашу теоретическую функцию.)

— Харви Мотульский

Я рад, что вы это исправили, потому что очень интересно, насколько велик охват для небольших выборок. Мы могли бы также перевернуть ваш вопрос и использовать формулу, чтобы определить, какое значение использовать, если мы хотим заверить (до проведения каких-либо экспериментов) с вероятностью (скажем), что среднее значение второй эксперимент будет находиться в двухстороннем доверительном интервале определенном по второму. Это, как обычная практика, может быть одним из интригующих способов ответить на некоторую критику НХСТ.

Z_{α / 2}

$Z_{\alpha/2}$

p = 0.95

$p=0.95$

1 - α

$1-\alpha$

— whuber

@whuber Я думаю, что следующим шагом будет посмотреть на распределение освещения. Пока что у нас есть среднее покрытие (среднее по многим первым экспериментам, со средним по многим вторым экспериментам в каждом). Но в зависимости от того, что является первым экспериментом, в некоторых случаях средний охват будет плохим. Было бы интересно посмотреть раздачу. Я пытаюсь выучить R достаточно хорошо, чтобы это выяснить.

— Харви Мотульский

Что касается распределений, см. Статью, на которую я ссылался, в комментариях выше.

— говорит амеба: восстанови Монику