Смущенный о доверительном интервале

Меня смущает понятие доверительного интервала. В частности, предположим, что существует гауссовская переменная $X \sim N(\mu, \sigma)$ с известным $\sigma$ , и меня интересует нижняя граница $\mu_L$ среднего значения с уровнем достоверности $95\%$ .

Я проведу эксперимент $5$ раз и буду наблюдать $X_1$ , $X_2$ , $X_3$ , $X_4$ , $X_5$ .

Вариант 1: я рассматриваю каждый образец отдельно и могу вычислять для каждого . И тогда я предполагаю , что есть какой - то способ (я не знаю , как) , чтобы вычислить фактические нижнюю границу из этих 5 «с. $\mu_L = X_i - \sigma z$ $X_i$ $\mu_L$

Вариант 2: с другой стороны, если я беру , я могу вычислить $T = (X_1+X_2+X_3+X_4+X_5)/5$ $\mu_L = T - \sigma/\sqrt{5}z$ . (предполагая, что $T$ нормальный, мы можем использовать t-stat тоже.)

Есть ли другой метод, кроме варианта 2, для вычисления нижней границы на основе $5$ выборок? А для варианта 1 существует ли способ вычисления нижней границы на основе вычисленных 5 нижних границ?

confidence-interval

— calbear
источник

Это большой вопрос, потому что он исследует возможность альтернативных процедур и просит нас подумать о том, почему и как одна процедура может превосходить другую.

Короткий ответ заключается в том, что существует бесконечно много способов, которыми мы могли бы разработать процедуру для получения более низкого доверительного предела для среднего значения, но некоторые из них лучше, а некоторые хуже (в смысле, который является значимым и четко определенным). Вариант 2 является отличной процедурой, потому что человеку, использующему его, необходимо собрать менее половины данных, чем человеку, использующему Вариант 1, чтобы получить результаты сопоставимого качества. Половина объема данных обычно означает половину бюджета и половину времени, поэтому мы говорим о существенной и экономически важной разнице. Это дает конкретную демонстрацию ценности статистической теории.

$n$ $1-\alpha$

$t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Вариант 1b, процедура «макс» . Нижний предел достоверности устанавливается равным . Значение числа определяется так, чтобы вероятность того, что превысит истинное среднее значение будет просто ; то есть . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Вариант 2 «средняя» процедура . Нижний доверительный интервал устанавливается равным , Значение числа определяется так, чтобы вероятность того, что превысит истинное среднее значение будет просто ; то есть . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Как известно, где ; - кумулятивная функция вероятности стандартного нормального распределения. Это формула, приведенная в вопросе. Математическая стенография $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Формулы для процедур min и max менее известны, но их легко определить:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Посредством симуляции мы видим, что все три формулы работают. Следующий Rкод проводит эксперимент n.trialsотдельно и сообщает все три LCL для каждого испытания:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Код не работает для общих нормальных распределений: поскольку мы можем выбирать единицы измерения и ноль шкалы измерения, достаточно изучить случай , Вот почему ни одна из формул для различных самом деле не зависит от .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10000 испытаний обеспечат достаточную точность. Давайте запустим симуляцию и вычислим частоту, с которой каждая процедура не дает доверительный предел, меньший, чем истинное среднее значение:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Выход

   max    min   mean 
0.0515 0.0527 0.0520

Эти частоты достаточно близки к установленному значению , мы можем быть удовлетворены тем, что все три процедуры работают так, как объявлено: каждая из них дает на 95% более низкий доверительный предел для среднего значения. $\alpha=.05$

(Если вы обеспокоены тем, что эти частоты немного отличаются от , вы можете запустить больше испытаний. С миллионом испытаний они к : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Тем не менее, одна вещь , которую мы хотели бы видеть в любой процедуре LCL, это то, что она не только должна быть правильной с запланированной долей времени, но и должна быть близка к правильной. Например, представьте себе (гипотетического) статистика, который в силу глубокой религиозной чувствительности может обратиться к дельфийскому оракулу (Аполлона) вместо сбора данных и выполнения LCL-вычислений. Когда она просит у бога 95% LCL, бог просто угадает истинное среднее и скажет ей это - в конце концов, он совершенен. Но, поскольку бог не желает полностью делиться своими способностями с человечеством (которое должно оставаться ошибочным), в 5% случаев он даст LCL, который равен $X_1, X_2, \ldots, X_n$ $100\sigma$ слишком высоко. Эта Дельфийская процедура также является 95% LCL - но ее было бы страшно использовать на практике из-за риска того, что она приведет к действительно ужасной грани.

Мы можем оценить, насколько точны наши три процедуры LCL. Хороший способ - взглянуть на их распределение выборки: эквивалентно, гистограммы многих смоделированных значений также подойдут. Они здесь. Во-первых, код для их создания:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Гистограммы

Они показаны на одинаковых осях х (но немного на разных вертикальных осях). Что нас интересует, так это

Красные части справа от чьи области представляют частоту, с которой процедуры не могут недооценить среднее значение, - все примерно равны желаемому количеству, . (Мы уже подтвердили это численно.) $0$ $\alpha=.05$
В спреды результатов моделирования. Очевидно, что самая правая гистограмма уже, чем две другие: она описывает процедуру, которая действительно недооценивает среднее значение (равное ) полностью в % случаев, но даже если это так, эта недооценка почти всегда находится в пределах от истинно значит. Две другие гистограммы имеют склонность недооценивать истинное среднее значение чуть больше, примерно до слишком низко. Кроме того, когда они переоценивают истинное среднее значение, они склонны переоценивать его с помощью более правой процедуры. Эти качества делают их хуже самой правой гистограммы. $0$ $95$ $2 \sigma$ $3\sigma$

Крайняя правая гистограмма описывает вариант 2, обычную процедуру LCL.

Одним из показателей этих спредов является стандартное отклонение результатов моделирования:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Эти цифры говорят нам, что процедуры max и min имеют одинаковые спреды (около ), а обычные, средние процедуры имеют только две трети их спреда (около ). Это подтверждает доказательства наших глаз. $0.68$ $0.45$

Квадраты стандартных отклонений представляют собой дисперсии, равные , и соответственно. Различия могут быть связаны с количеством данных : если один аналитик рекомендует максимальную (или минимальную ) процедуру, то для достижения узкого разброса, демонстрируемого обычной процедурой, их клиенту придется получать данные в раза больше данных. - вдвое больше. Другими словами, используя Вариант 1, вы заплатили бы за вашу информацию более чем в два раза больше, чем с помощью Варианта 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— Whuber
источник

Вы никогда не перестанете удивлять меня.

— Момо

+1 @whuber Это хорошая иллюстрация. При описании доверительных интервалов начальной загрузки Эфрон говорит о точности и правильности. Точность заключается в том, что истинный уровень достоверности интервала близок к объявленному значению. Ваши 3 примера все точны. Правильность относится к лучшим. Для двустороннего доверительного интервала, который будет означать точный интервал с наименьшей шириной (интервал или граница основаны на среднем значении в вашем случае). Ваш пример интересен, потому что три метода, по крайней мере, несколько конкурентоспособны.

— Майкл Р. Черник

Вариант 1 ОП не является конкурентоспособным по причинам, которые я привел в своем ответе.

— Майкл Р. Черник

@ Михаил Я согласен, что ваша интерпретация Варианта 1 неконкурентоспособна. Что мне показалось интересным - и исследованным здесь - это то, что есть несколько более жизнеспособных интерпретаций того, как можно «вычислить фактическую нижнюю границу» из пяти отдельных, два из которых я рассмотрел здесь. Вероятно, мне следовало бы присмотреться и к «срединному» варианту: он не будет ужасно хуже обычного расчета (эффективность примерно на 40% ниже).

— whuber

Первый вариант не учитывает уменьшенную дисперсию, полученную из выборки. Первый вариант дает пять нижних 95% доверительных границ для среднего значения, основанного на выборке размера 1 в каждом случае. Объединение их путем усреднения не создает границу, которую вы можете интерпретировать как нижнюю границу 95%. Никто бы не сделал это. Второй вариант - это то, что сделано. Среднее из пяти независимых наблюдений имеет дисперсию, в 6 раз меньшую, чем дисперсия для одной выборки. Поэтому он дает вам гораздо более низкую оценку, чем любая из пяти, которые вы рассчитали первым способом.

Также, если X можно считать нормальным, то T будет нормальным. $_i$

— Майкл Р. Черник
источник