Почему сбор данных до получения значительного результата увеличивает частоту появления ошибок типа I?

60

Мне было интересно, почему именно сбор данных, пока не будет получен значительный результат (например, ) (т. Е. P-хакерство), увеличивает частоту ошибок типа I? $p \lt .05$

Я также был бы очень признателен за Rдемонстрацию этого явления.

— Реза
источник

6

Вы, вероятно, имеете в виду «р-хакерство», потому что «хакинг» относится к «гипотезе после того, как результаты известны», и, хотя это можно считать связанным грехом, это не то, о чем вы, кажется, спрашиваете.

— whuber

2

Еще раз, xkcd отвечает на хороший вопрос с картинками. xkcd.com/882

— Джейсон

7

@ Джейсон, я должен не согласиться с твоей ссылкой; это не говорит о совокупном сборе данных. Тот факт, что даже кумулятивный сбор данных об одном и том же и использование всех данных, которые вы должны вычислить значением, является неправильным, гораздо более нетривиален, чем случай в этом xkcd.

p

$p$

— JiK

1

@ JiK, честный звонок. Я был сосредоточен на аспекте «продолжай пытаться, пока мы не получим результат, который нам нравится», но ты абсолютно прав, в этом вопросе гораздо больше этого.

— Джейсон

@whuber и user163778 дали очень похожие ответы, как обсуждалось для практически идентичного случая «A / B (последовательное) тестирование» в этой теме: stats.stackexchange.com/questions/244646/… Там мы спорили в терминах Family Wise Error скорости и необходимость корректировки значения p при повторном тестировании. Этот вопрос фактически может рассматриваться как повторяющаяся проблема тестирования!

— Томка

87

Проблема в том, что вы даете себе слишком много шансов пройти тест. Это просто модная версия этого диалога:

Я переверну тебя, чтобы увидеть, кто платит за ужин.

Хорошо, я называю головы.

Крысы, ты победил. Лучшие два из трех?

Чтобы лучше это понять, рассмотрим упрощенную, но реалистичную модель этой последовательной процедуры . Предположим, вы начнете с «пробного запуска» определенного количества наблюдений, но готовы продолжить эксперименты дольше, чтобы получить значение р менее . Нулевая гипотеза состоит в том, что каждое наблюдение происходит (независимо) от стандартного нормального распределения. Альтернатива состоит в том, что приходят независимо от нормального распределения единичной дисперсии с ненулевым средним. Статистика теста будет представлять собой среднее значение всех наблюдений, , деленное на их стандартную ошибку, . Для двустороннего теста критическими значениями являются $0.05$ $X_i$ $X_i$ $n$ $\bar X$ $1/\sqrt{n}$ $0.025$ и процентных пункта от стандартного нормального распределения, приблизительно. $0.975$ $Z_\alpha=\pm 1.96$

Это хороший тест - для одного эксперимента с фиксированным размером выборки . У него есть ровно вероятности отклонить нулевую гипотезу, независимо от того, каким может быть . $n$ $5\%$ $n$

Давайте алгебраически преобразуем это в эквивалентный тест, основанный на сумме всех значений, $n$

S_{n} = X_{1} + X_{2} + \dots + X_{n} = n \bar{X} .

$S_n=X_1+X_2+\cdots+X_n = n\bar X.$

Таким образом, данные являются "значительными", когда

| Z_{α} | \leq | \frac{\bar{X}}{1 / \sqrt{n}} | = | \frac{S_{n}}{n / \sqrt{n}} | = | S_{n} | / \sqrt{n};

$\left| Z_\alpha\right| \le \left| \frac{\bar X}{1/\sqrt{n}} \right| = \left| \frac{S_n}{n/\sqrt{n}} \right| = \left| S_n \right| / \sqrt{n};$

это,

\begin{matrix} (1) & | Z_{α} | \sqrt{n} \leq | S_{n} | . \end{matrix}

$\left| Z_\alpha\right| \sqrt{n} \le \left| S_n \right| .\tag{1}$

Если мы умны, мы сократим наши потери и сдадимся, как только станет очень большим, а данные все еще не поступят в критическую область. $n$

Это описывает случайную прогулку . Формула сводится к возведению изогнутого параболического «забора» или барьера вокруг графика случайного блуждания : результат является «значительным», если любая точка случайного блуждания попадает в забор. $S_n$ $(1)$ $(n, S_n)$

Это свойство случайных прогулок, поэтому , если мы будем ждать достаточно долго, очень вероятно, что в какой-то момент результат будет выглядеть значительным.

Вот 20 независимых симуляций с пределом выборок. Все они начинают тестирование при выборках, после чего мы проверяем, находится ли каждая точка вне барьеров, которые были нарисованы в соответствии с формулой . Начиная с того момента, когда статистический тест является первым «значимым», моделируемые данные окрашиваются в красный цвет. $n=5000$ $n=30$ $(1)$

Вы можете видеть, что происходит: случайное блуждание все больше и больше поднимается и опускается с ростом . Барьеры разносятся примерно с одинаковой скоростью, но не всегда достаточно быстро, чтобы избежать случайного блуждания. $n$

В 20% этих симуляций была обнаружена «значительная» разница - обычно довольно рано - даже при том, что в каждой из них нулевая гипотеза абсолютно верна! Выполнение большего количества симуляций этого типа указывает на то, что истинный размер теста близок к а не к предполагаемому значению : то есть ваша готовность продолжать искать «значимость» до размера выборки дает вам шанс отклонить ноль, даже если ноль имеет значение true. $25\%$ $\alpha=5\%$ $5000$ $25\%$

Обратите внимание, что во всех четырех «значимых» случаях по мере продолжения тестирования данные перестали выглядеть значимыми в некоторых точках. В реальной жизни экспериментатор, который останавливается рано, теряет возможность наблюдать такие «реверсии». Эта избирательность путем необязательной остановки смещает результаты.

В последовательных тестах честности и добродетели барьеры - это линии. Они распространяются быстрее, чем изогнутые барьеры, показанные здесь.

library(data.table)
library(ggplot2)

alpha <- 0.05   # Test size
n.sim <- 20     # Number of simulated experiments
n.buffer <- 5e3 # Maximum experiment length
i.min <- 30     # Initial number of observations
#
# Generate data.
#
set.seed(17)
X <- data.table(
  n = rep(0:n.buffer, n.sim),
  Iteration = rep(1:n.sim, each=n.buffer+1),
  X = rnorm((1+n.buffer)*n.sim)
)
#
# Perform the testing.
#
Z.alpha <- -qnorm(alpha/2)
X[, Z := Z.alpha * sqrt(n)]
X[, S := c(0, cumsum(X))[-(n.buffer+1)], by=Iteration]
X[, Trigger := abs(S) >= Z & n >= i.min]
X[, Significant := cumsum(Trigger) > 0, by=Iteration]
#
# Plot the results.
#
ggplot(X, aes(n, S, group=Iteration)) +
  geom_path(aes(n,Z)) + geom_path(aes(n,-Z)) +
  geom_point(aes(color=!Significant), size=1/2) +
  facet_wrap(~ Iteration)

— Whuber
источник

12

+1. Пересекает ли в конечном итоге случайное блуждание с вероятностью 1? Я знаю, что ожидаемое расстояние после шагов равно и теперь я посмотрел, что константа пропорциональности равна , что меньше 1,96. Но я не уверен, что с этим делать.

n

$n$

O (\sqrt{n})

$\mathcal O(\sqrt{n})$

\sqrt{2 / π}

$\sqrt{2/\pi}$

— говорит амеба, восстанови Монику

10

@amoeba Это отличный вопрос, от которого я постарался уклониться :-). Если бы я мог быстро вычислить ответ (или знал бы его не по буквам), я бы опубликовал его. К сожалению, я слишком занят, чтобы анализировать это прямо сейчас. Самая длинная симуляция, которую я сделал, была 1000 итераций, смотрящих на с . Доля «значимых» результатов, по-видимому, стабилизируется около .

n = 5, 000, 000

$n=5,000,000$

α = 0.05

$\alpha=0.05$

1 / 4

$1/4$

— whuber

4

Интересен вопрос о вероятности попадания на границу . Я полагаю, что теория броуновского движения Эйнштейна, связавшая ее с уравнением диффузии, могла бы быть интересной точкой зрения. У нас есть функция распределения, распространяющаяся со скоростью и «потерей частиц», равной половине значения функции распределения на этой границе (половина отходит от нуля, через границу, другая половина Идет назад). По мере того, как эта функция распределения распространяется и становится тоньше, «потери» становятся меньше. Я предполагаю, что это эффективно создаст лимит, то есть это 1/4.

α = 0.05

$\alpha=0.05$

\sim \sqrt{n}

$\sim \sqrt{n}$

— Секст Эмпирик

6

Интуитивно понятная причина, почему вы получите в какой-то момент почти наверняка: пусть и . Значение после первых испытаний практически не зависит от значения после первых испытаний . Таким образом, у вас будет бесконечное число «почти» независимых значений, поэтому одно из них гарантированно будет . Конечно, реальная конвергенция намного быстрее, чем говорит этот аргумент. (А если вам не нравится , вы можете попробовать или ...)

p < 0.05

$p<0.05$

n_{1} = 10

$n_1=10$

n_{k + 1} = 10^{n_{k}}

$n_{k+1}=10^{n_k}$

p

$p$

n_{k + 1}

$n_{k+1}$

p

$p$

n_{k}

$n_k$

p

$p$

< 0.05

$<0.05$

10^{n_{k}}

$10^{n_k}$

A (n_{k})

$A(n_k)$

B B (n_{k})

$\mathrm{BB}(n_k)$

— JiK

10

@CL. Я ожидал вашего возражения несколько лет назад: 17 - мое публичное семя. Фактически, в ранних (гораздо более длительных) исследованиях я постоянно получал более высокие показатели значимости, значительно превышающие 20%. Я установил семя на 17 для создания окончательного изображения и был разочарован тем, что эффект не был таким драматичным. Такова жизнь. Соответствующий пост (иллюстрирующий вашу точку зрения) находится по адресу stats.stackexchange.com/a/38067/919 .

— whuber

18

Люди, которые плохо знакомы с проверкой гипотез, склонны думать, что, как только значение ap опустится ниже 0,05, добавление большего количества участников приведет только к дальнейшему снижению значения p. Но это не правда. Согласно нулевой гипотезе, значение ap равномерно распределяется между 0 и 1 и может колебаться в этом диапазоне совсем немного.

Я смоделировал некоторые данные в R (мои навыки R довольно просты). В этой симуляции я собираю 5 точек данных - каждая со случайно выбранным членством в группе (0 или 1) и каждая со случайно выбранной конечной мерой ~ N (0,1). Начиная с участника 6, я провожу t-тест на каждой итерации.

for (i in 6:150) {
  df[i,1] = round(runif(1))
  df[i,2] = rnorm(1)
  p = t.test(df[ , 2] ~ df[ , 1], data = df)$p.value
  df[i,3] = p
}

Значения p приведены на этом рисунке. Обратите внимание, что я нахожу значительные результаты, когда размер выборки составляет около 70-75. Если я остановлюсь там, я в конечном итоге буду полагать, что мои выводы важны, потому что я упустил тот факт, что мои значения р подскочили назад с большей выборкой (это на самом деле произошло со мной однажды с реальными данными). Поскольку я знаю, что обе популяции имеют среднее значение 0, это должно быть ложным положительным результатом. Это проблема с добавлением данных до p <.05. Если вы добавите достаточное количество тестов, p в конечном итоге переступит порог 0,05, и вы сможете обнаружить значительный эффект для любого набора данных.

— ТРМ
источник

1

Спасибо, но ваш Rкод не работает вообще.

— Реза

3

@Reza, который вы должны создать в dfпервую очередь (желательно в окончательном размере). Поскольку код начинает писать в строке 6, подразумевается (что соответствует тексту ответа), что df уже существует с 5 уже заполненными строками. Может быть, что-то вроде этого было задумано:

n150<-vector("numeric",150);  df<-data.frame(gp=n150,val=n150,pval=n150);  init<-1:5; df[init,1]<-c(0,1,0,1,0); df[init,2]<-rnorm(5)

(затем запустите код выше), тогда, возможно: plot(df$pv[6:150])

— Glen_b

@ user263778 очень сфокусированный полезный и уместный ответ. Но слишком много путаницы в интерпретации так называемого p-значения - танцующей красоты.

— Субхаш С. Давар

@ user163778 - вы должны включить код, чтобы тоже все инициализировать

— Дейсон

17

Этот ответ касается только вероятности окончательного получения «значимого» результата и распределения времени до этого события по модели @ whuber.

Как и в модели @whuber, пусть обозначает значение статистики теста после того, как наблюдений было собрано, и предположим, что наблюдения являются стандартными нормальными , Тогда , что ведет себя как стандартное броуновское движение с непрерывным временем, если мы на данный момент игнорируем тот факт, что у нас есть процесс с дискретным временем (левый график ниже). $S(t)=X_1 + X_2 + \dots + X_t$ $t$ $X_1,X_2,\dots$

\begin{matrix} (1) & S (t + h) | S (t) = s_{0} \sim N (s_{0}, h), \end{matrix}

$S(t+h)|S(t)=s_0 \sim N(s_0, h), \tag{1}$

S (t)

$S(t)$

Обозначим через первое время прохождения через зависящие от времени барьеры (количество наблюдений, необходимое до того, как тест станет значительным). $T$ $S(t)$ $\pm z_{\alpha/2}\sqrt{t}$

Рассмотрим преобразованный процесс полученный путем масштабирования на его стандартное отклонение в момент времени и позволяя новому масштабу времени , чтобы Из (1) и (2) следует, что обычно распределяется с и $Y(\tau)$ $S(t)$ $t$ $\tau=\ln t$

\begin{matrix} (2) & Y (τ) = \frac{S (t (τ))}{\sqrt{t (τ)}} = e^{- τ / 2} S (e^{τ}) . \end{matrix}

$Y(\tau)=\frac{S(t(\tau))}{\sqrt{t(\tau)}}=e^{-\tau/2}S(e^\tau). \tag{2}$

Y (τ + δ)

$Y(\tau+\delta)$

\begin{aligned} E (Y (τ + δ) | Y (τ) = y_{0}) & = E (e^{- (τ + δ) / 2} S (e^{τ + δ}) | S (e^{τ}) = y_{0} e^{τ / 2}) \\ (3) & = y_{0} e^{- δ / 2} \end{aligned}

$\begin{align} E(Y(\tau+\delta)|Y(\tau)=y_0) &=E(e^{-(\tau+\delta)/2}S(e^{\tau+\delta})|S(e^\tau)=y_0e^{\tau/2}) \\&=y_0e^{-\delta/2} \tag{3} \end{align}$

\begin{aligned} Var (Y (τ + δ) | Y (τ) = y_{0}) & = Var (e^{(τ + δ) / 2} S (e^{τ + δ}) | S (e^{τ}) = y_{0} e^{τ / 2}) \\ (4) & = 1 - e^{- δ}, \end{aligned}

$\begin{align} \operatorname{Var}(Y(\tau+\delta)|Y(\tau)=y_0) &=\operatorname{Var}(e^{(\tau+\delta)/2}S(e^{\tau+\delta})|S(e^\tau)=y_0e^{\tau/2}) \\&=1-e^{-\delta}, \tag{4} \end{align}$ то есть - это процесс Орнштейна-Уленбека (OU) с нулевым средним с постоянной дисперсией 1 и временем возврата 2 (правый график ниже).

Y (τ)

$Y(\tau)$

Для преобразованной модели барьеры становятся независимыми от времени константами, равными . Тогда известно ( Nobile et. Al. 1985 ; Ricciardi & Sato, 1988 ), что первое время прохождения OU-процесса через эти барьеры приблизительно экспоненциально распределено с некоторым параметром (в зависимости от барьеров в ) (оценивается как для ниже). Существует также дополнительная точечная масса размера в . «Отказ» от $\pm z_{\alpha/2}$ $\mathcal{T}$ $Y(\tau)$ $\lambda$ $\pm z_{\alpha/2}$ $\hat\lambda=0.125$ $\alpha=0.05$ $\alpha$ $\tau=0$ $H_0$ в конечном итоге происходит с вероятностью 1. Следовательно, (число наблюдений, которое необходимо собрать, прежде чем получить «значительный» результат), приблизительно соответствует логарифмическому экспоненциальному распределению с ожидаемым значением Таким образом, имеет конечное ожидание, только если (для достаточно большие уровни значимости ). $T=e^\mathcal{T}$

\begin{matrix} (5) & E T \approx 1 + (1 - α) \int_{0}^{\infty} e^{τ} λ e^{- λ τ} d τ . \end{matrix}

$ET\approx 1+(1-\alpha)\int_0^\infty e^\tau \lambda e^{-\lambda \tau}d\tau.\tag{5}$

T

$T$

λ > 1

$\lambda>1$

α

$\alpha$

Вышесказанное игнорирует тот факт, что для реальной модели является дискретным и что реальный процесс является дискретным, а не непрерывным временем. Следовательно, вышеупомянутая модель переоценивает вероятность того, что барьер был пересечен (и недооценивает ), потому что путь выборки с непрерывным временем может пересекать барьер только временно между двумя соседними дискретными моментами времени и . Но такие события должны иметь незначительную вероятность для больших . $T$ $ET$ $t$ $t+1$ $t$

На следующем рисунке показана оценка Каплана-Мейера в логарифмическом масштабе вместе с кривой выживания для экспоненциального приближения с непрерывным временем (красная линия). $P(T>t)$

Код R:

# Fig 1
par(mfrow=c(1,2),mar=c(4,4,.5,.5))
set.seed(16)
n <- 20
npoints <- n*100 + 1
t <- seq(1,n,len=npoints)
subset <- 1:n*100-99
deltat <- c(1,diff(t))
z <- qnorm(.975)
s <- cumsum(rnorm(npoints,sd=sqrt(deltat)))
plot(t,s,type="l",ylim=c(-1,1)*z*sqrt(n),ylab="S(t)",col="grey")
points(t[subset],s[subset],pch="+")
curve(sqrt(t)*z,xname="t",add=TRUE)
curve(-sqrt(t)*z,xname="t",add=TRUE)
tau <- log(t)
y <- s/sqrt(t)
plot(tau,y,type="l",ylim=c(-2.5,2.5),col="grey",xlab=expression(tau),ylab=expression(Y(tau)))
points(tau[subset],y[subset],pch="+")
abline(h=c(-z,z))

# Fig 2
nmax <- 1e+3
nsim <- 1e+5
alpha <- .05
t <- numeric(nsim)
n <- 1:nmax
for (i in 1:nsim) {
  s <- cumsum(rnorm(nmax))
  t[i] <- which(abs(s) > qnorm(1-alpha/2)*sqrt(n))[1]
}
delta <- ifelse(is.na(t),0,1)
t[delta==0] <- nmax + 1
library(survival)
par(mfrow=c(1,1),mar=c(4,4,.5,.5))
plot(survfit(Surv(t,delta)~1),log="xy",xlab="t",ylab="P(T>t)",conf.int=FALSE)
curve((1-alpha)*exp(-.125*(log(x))),add=TRUE,col="red",from=1,to=nmax)

— Ярле Туфто
источник

Спасибо! Есть ли у вас (стандартные) ссылки на эти результаты? Например, почему Y-процесс является процессом Орнштейна-Уленбека и где мы можем найти заявленный результат времени прохождения?

— Грасси

1

Я не видел такого преобразования нигде, но я считаю, что (3) и (4) легко следует из (1) и (2), а нормальность полностью характеризует процесс OU. Исследователь Google выдает много результатов о приблизительной экспоненциальности распределения времени первого прохождения для процесса OU. Но я полагаю, что в этом случае (в приближении непрерывного времени) точно экспоненциально распределен (за исключением дополнительной точечной массы в ), потому что происходит от стационарного распределения процесса ,

T

$\mathcal{T}$

τ = 0

$\tau=0$

Y (0)

$Y(0)$

— Ярле Туфто

@Grassie Также см. Math.stackexchange.com/questions/1900304/…

— Ярл Туфто

@Grassie На самом деле, мой аргумент, основанный на отсутствии памяти, был ошибочным. Продолжительность экскурсий вне границ экспоненциально не распределена. Следовательно, основываясь на том же аргументе, что и в stats.stackexchange.com/questions/298828/… , хотя исходит из стационарного распределения, время первого прохождения не точно распределено экспоненциально.

Y (0)

$Y(0)$

— Ярле Туфто

5

Нужно сказать, что приведенное выше обсуждение относится к частому мировоззрению, для которого множественность исходит из шансов, которые вы предоставляете, чтобы данные были более экстремальными, а не из шансов, которые вы даете эффекту на существование. Коренная причина проблемы заключается в том, что в p-значениях и ошибках типа I используется обратный поток информации об обратном времени, что делает важным «как вы сюда попали» и что могло произойти вместо этого. С другой стороны, байесовская парадигма кодирует скептицизм в отношении влияния на сам параметр, а не на данные. Это позволяет интерпретировать каждую последующую вероятность независимо от того, вычислили ли вы другую последнюю вероятность эффекта 5 минут назад или нет. Более подробную информацию и простую симуляцию можно найти по адресу http://www.fharrell.com/2017/10/continuous-learning-from-data-no.

— Фрэнк Харрелл
источник

1

Давайте представим лабораторию, возглавляемую доктором Б., который является набожным байесовцем. Лаборатория изучает социальное грунтование и выпустила постоянный поток статей, показывающих различные эффекты грунтовки, каждый раз поддерживаемые байесовским фактором BF> 10. Если они никогда не проводят последовательное тестирование, это выглядит довольно убедительно. Но допустим, я узнал, что они всегда проводят последовательное тестирование и продолжают получать новых предметов, пока не получат BF> 10 в пользу эффектов грунтовки . Тогда ясно, что весь этот труд бесполезен. Тот факт, что они проводят последовательное тестирование + отбор, имеет огромное значение, независимо от того, основаны ли они на p-значениях BF.

— говорит амеба, восстанови Монику

1

Я не использую факторы Байеса. Но если бы они использовали апостериорные вероятности и проводили каждый эксперимент до апостериорной вероятности положительного эффекта , с этими вероятностями не было бы абсолютно ничего плохого. Посмотрите на цитату в начале моей статьи в блоге - смотрите ссылку в моем ответе выше. Степень уверенности в отношении эффекта грунтовки зависит от данных и предыдущего убеждения. Если вы (как и я) очень сомневаетесь в таких эффектах прайминга, вам лучше использовать довольно скептически настроенный априор при вычислении апостериорных вероятностей. Вот и все.

\geq 0.95

$\geq 0.95$

— Фрэнк Харрелл

1

Я прочитал ваш пост в блоге, заметил цитату и посмотрел на похожую статью ( необязательный останов: для байесовцев нет проблем ), на которую кто-то еще ссылался в комментариях к другому ответу. Я до сих пор не понимаю. Если «null» (отсутствие эффектов праймирования) истинно, то, если доктор B желает отбирать пробы достаточно долго, он сможет получать апостериорную вероятность> 0,95 каждый раз, когда он запускает эксперимент (именно так, как доктор F мог бы получить р <0,05 каждый раз). Если это «абсолютно ничего плохого», тогда я не знаю, что это такое.

— говорит амеба, восстанови Монику

2

Ну, я оспариваю эту "большую точку зрения". Я не думаю, что это правда. Как я повторяю, под нулевым нулевым эффектом и с любым заданным априором (скажем, некоторым широким непрерывным априором с центром в нуле) повторная выборка всегда рано или поздно даст> 0,98 апостериорной вероятности, сконцентрированной выше нуля. Человек, который пробует, пока это не произойдет (т.е. применяет это правило остановки), будет ошибаться каждый раз . Как вы можете сказать, что этот человек будет неправ только в 0,02 раза? Я не понимаю При этих конкретных обстоятельствах он не будет, он всегда будет неправ.

— говорит амеба, восстанови Монику

2

Я так не думаю. Моя главная мысль заключается в том, что несправедливо и непоследовательно обвинять частые процедуры в том, что они страдают от последовательного тестирования, и защищать байесовские процедуры, которые не были затронуты последовательным тестированием. Моя точка зрения (которая является математическим фактом) состоит в том, что на них обоих влияют одинаково, а это означает, что последовательное тестирование может увеличить ошибку байесовского типа I до 100%. Конечно, если вы говорите, что в принципе вас не интересуют коэффициенты ошибок типа I, это не имеет значения. Но тогда частые процедуры не должны быть обвинены в этом либо.

— говорит амеба: восстанови Монику

3

Мы считаем, что исследователь собирает выборку размером , , чтобы проверить некоторую гипотезу . Он отклоняет, если подходящая тестовая статистика превышает ее критическое значение уровня . Если это не так, он собирает другую выборку размером , и отклоняет ее, если тест отклоняет для объединенной выборки . Если он по-прежнему не получает отказа, он поступает таким образом, всего до раз. $n$ $x_1$ $\theta=\theta_0$ $t$ $\alpha$ $c$ $n$ $x_2$ $(x_1,x_2)$ $K$

Эта проблема, по-видимому, уже была рассмотрена П. Армитиджем, К. К. Макферсоном и BC Роу (1969), Журнал Королевского статистического общества. Серия A (132), 2, 235-244: «Повторные проверки значимости накапливающихся данных» .

Байесовская точка зрения по этому вопросу, также обсуждаемая здесь, кстати, обсуждается в Berger and Wolpert (1988), «Принцип правдоподобия» , раздел 4.2.

Вот частичная репликация результатов Armitage et al (код ниже), которая показывает, как повышаются уровни значимости при , а также возможные поправочные коэффициенты для восстановления критических значений уровня- . Обратите внимание, что поиск по сетке занимает некоторое время - реализация может быть довольно неэффективной. $K>1$ $\alpha$

Размер стандартного правила отклонения как функция количества попыток $K$

Размер как функция увеличения критических значений для разных $K$

Скорректированные критические значения для восстановления 5% тестов в зависимости от $K$

reps <- 50000

K <- c(1:5, seq(10,50,5), seq(60,100,10)) # the number of attempts a researcher gives herself
alpha <- 0.05
cv <- qnorm(1-alpha/2)

grid.scale.cv <- cv*seq(1,1.5,by=.01) # scaled critical values over which we check rejection rates
max.g <- length(grid.scale.cv)
results <- matrix(NA, nrow = length(K), ncol=max.g)

for (kk in 1:length(K)){
  g <- 1
  dev <- 0
  K.act <- K[kk]
  while (dev > -0.01 & g <= max.g){
    rej <- rep(NA,reps)
    for (i in 1:reps){
      k <- 1
      accept <- 1
      x <- rnorm(K.act)
      while(k <= K.act & accept==1){
        # each of our test statistics for "samples" of size n are N(0,1) under H0, so just scaling their sum by sqrt(k) gives another N(0,1) test statistic
        rej[i] <- abs(1/sqrt(k)*sum(x[1:k])) > grid.scale.cv[g] 
        accept <- accept - rej[i]
        k <- k+1
      }
    }
    rej.rate <- mean(rej)
    dev <- rej.rate-alpha
    results[kk,g] <- rej.rate
    g <- g+1
  }
}
plot(K,results[,1], type="l")
matplot(grid.scale.cv,t(results), type="l")
abline(h=0.05)

cv.a <- data.frame(K,adjusted.cv=grid.scale.cv[apply(abs(results-alpha),1,which.min)])
plot(K,cv.a$adjusted.cv, type="l")

— Кристоф Ханк
источник