Являются ли 50% доверительные интервалы более достоверными, чем 95% доверительные интервалы?

Мой вопрос вытекает из этого комментария к сообщению в блоге Эндрю Гельмана, в котором он выступает за использование 50% -ных доверительных интервалов вместо 95% -ных доверительных интервалов, хотя не на том основании, что они более надежно оценены:

Я предпочитаю интервалы от 50% до 95% по 3 причинам:

Вычислительная стабильность,

Более интуитивная оценка (половина 50% интервалов должна содержать истинное значение),

Ощущение, что в приложениях лучше понять, где будут параметры и прогнозируемые значения, а не пытаться достичь нереалистичной почти уверенности.

Идея комментатора, похоже, заключается в том, что проблемы с допущениями, лежащими в основе построения доверительного интервала, будут иметь большее влияние, если это 95% -й доверительный интервал, чем если бы это был 50% -й доверительный интервал. Однако он на самом деле не объясняет почему.

[...] с увеличением интервалов вы становитесь более чувствительными к деталям или предположениям вашей модели. Например, вы никогда не поверите, что правильно определили интервал 99,9995%. Или, по крайней мере, это моя интуиция. Если это правильно, он утверждает, что 50 процентов следует оценивать лучше, чем 95 процентов. Или, может быть, «более надежно» оценено, так как оно менее чувствительно к предположениям о шуме, возможно?

Это правда? Почему, почему нет?

confidence-interval assumptions robust

— user1205901 - Восстановить Монику
источник

Обычно да, более низкие уровни достоверности являются более надежными. Рассмотрим оценку медианы против 99 процентиля на выборке с 100 наблюдениями. Любое крупное наблюдение будет двигаться на 99 процентилей, в то время как медиана не будет сильно двигаться. Я уверен, что вы можете найти встречный пример, но это будет выглядеть необычно.

— Аксакал

Этот ответ анализирует значение цитаты и предлагает результаты имитационного исследования, чтобы проиллюстрировать его и помочь понять, что он пытается сказать. Любой может легко расширить исследование (с элементарными Rнавыками), чтобы изучить другие процедуры доверительного интервала и другие модели.

В этой работе возникли два интересных вопроса. Один из них касается того, как оценить точность процедуры доверительного интервала. Впечатление от надежности зависит от этого. Я показываю два разных показателя точности, чтобы вы могли сравнить их.

Другая проблема заключается в том, что хотя процедура доверительного интервала с низкой достоверностью может быть устойчивой, соответствующие доверительные пределы могут быть вовсе не устойчивыми. Интервалы имеют тенденцию работать хорошо, потому что ошибки, которые они делают на одном конце, часто уравновешивают ошибки, которые они делают на другом. На практике вы можете быть уверены, что около половины ваших доверительных интервалов покрывают их параметры, но фактический параметр может постоянно находиться вблизи одного конкретного конца каждого интервала, в зависимости от того, как реальность отклоняется от ваших предположений модели. $50\%$

Робаст имеет стандартное значение в статистике:

Устойчивость обычно подразумевает нечувствительность к отклонениям от допущений, окружающих основную вероятностную модель.

(Хоаглин, Мостеллер и Тьюки, Понимание надежного и разведочного анализа данных . Дж. Уайли (1983), стр. 2.)

Это согласуется с цитатой в вопросе. Чтобы понять эту цитату мы все еще должны знать предполагаемую цель доверительного интервала. Для этого давайте посмотрим, что написал Гельман.

Я предпочитаю интервалы от 50% до 95% по 3 причинам:

Вычислительная стабильность,

Более интуитивная оценка (половина 50% интервалов должна содержать истинное значение),

Ощущение, что в приложениях лучше понять, где будут параметры и прогнозируемые значения, а не пытаться достичь нереалистичной почти полной определенности.

Поскольку получение значения прогнозируемых значений - это не то, для чего предназначены доверительные интервалы (КИ), я сосредоточусь на получении значения параметров , что и делают КИ. Давайте назовем их «целевыми» значениями. Откуда, по определению, CI предназначен для охвата своей цели с определенной вероятностью (ее уровнем доверия). Достижение намеченных уровней покрытия является минимальным критерием для оценки качества любой процедуры CI. (Кроме того, нас могут заинтересовать типичные значения ширины элементов конфигурации. Чтобы сохранить приемлемую длину сообщения, я проигнорирую эту проблему.)

Эти соображения побуждают нас изучить, насколько вычисление доверительного интервала может ввести нас в заблуждение относительно значения целевого параметра. Цитата может быть истолкована как предполагающая, что КИ с более низкой достоверностью могут сохранять свое покрытие, даже когда данные генерируются процессом, отличным от модели. Это то, что мы можем проверить. Процедура такова:

Принять вероятностную модель, включающую хотя бы один параметр. Классическим является выборка из нормального распределения неизвестного среднего значения и дисперсии.
Выберите процедуру CI для одного или нескольких параметров модели. Отличный человек строит CI из среднего значения выборки и стандартного отклонения выборки, умножая его на коэффициент, определяемый распределением Стьюдента.
Применить эту процедуру для различных различных моделей - отступая не слишком много от принятых одной - для оценки его охвата в диапазоне уровней достоверности.

В качестве примера я сделал именно это. Я позволил базовому распределению варьироваться в широких пределах: от почти Бернулли до униформного, нормального, экспоненциального и вплоть до логнормального. К ним относятся симметричные распределения (первые три) и сильно перекошенные (последние два). Для каждого распределения я сгенерировал 50 000 выборок размером 12. Для каждой выборки я построил двусторонние КИ с уровнями достоверности от до , что охватывает большинство приложений. $50\%$ $99.8\%$

Теперь возникает интересный вопрос: как мы должны измерить, насколько хорошо (или насколько плохо) выполняется процедура CI? Обычный метод просто оценивает разницу между фактическим охватом и уровнем достоверности. Однако это может выглядеть подозрительно хорошо для высокого уровня достоверности. Например, если вы пытаетесь добиться доверия на уровне 99,9%, но у вас есть только 99% покрытия, необработанная разница составляет всего 0,9%. Однако это означает, что ваша процедура не может охватить цель в десять раз чаще, чем должна! По этой причине, более информативный способ сравнения покрытий должен использовать что-то вроде отношения шансов. Я использую различия логитов, которые являются логарифмами отношений шансов. В частности, когда желаемый уровень достоверности равен а фактическое покрытие равно $\alpha$ $p$ , тогда

журнал (\frac{п}{1 - п}) - журнал (\frac{α}{1 - α})

$\log\left(\frac{p}{1-p}\right) - \log\left(\frac{\alpha}{1-\alpha}\right)$

приятно отражает разницу. Когда оно равно нулю, покрытие является именно тем значением, которое предназначено. Когда оно отрицательное, охват слишком низкий - это означает, что CI слишком оптимистичен и недооценивает неопределенность.

Тогда возникает вопрос : как эти коэффициенты ошибок изменяются в зависимости от уровня достоверности, когда базовая модель возмущена? Мы можем ответить на это, нанося на график результаты моделирования. Эти графики дают количественную оценку того, насколько «нереалистичной» может быть «почти определенность» КИ в этом архетипическом приложении.

Графики показывают те же результаты, но в левой части отображаются значения в логит-масштабах, а в правой - необработанные. Бета-распределение представляет собой бета-версию (которая практически является распределением Бернулли). Логнормальное распределение является показателем стандартного нормального распределения. Нормальное распределение включено, чтобы проверить, действительно ли эта процедура CI достигает своего предполагаемого охвата, и показать, сколько отклонений ожидать от конечного размера моделирования. (Действительно, графики для нормального распределения удобно близки к нулю, без существенных отклонений.) $(1/30,1/30)$

Понятно, что в логит-масштабе покрытия растут с увеличением уровня достоверности. Однако есть несколько интересных исключений. Если нас не волнуют возмущения модели, которые вносят асимметрию или длинные хвосты, то мы можем игнорировать экспоненциальные и логнормальные и сосредоточиться на остальном. Их поведение ошибочно до тех пор, пока превысит или около того (логит ), после чего расхождение началось. $\alpha$ $95\%$ $3$

Это небольшое исследование привносит некоторую конкретность в утверждение Гельмана и иллюстрирует некоторые из явлений, которые он мог иметь в виду. В частности, когда мы используем процедуру CI с низким уровнем достоверности, например, , даже тогда, когда базовая модель сильно возмущена, похоже, что покрытие все равно будет близко к : ощущение, что такой КИ будет правильным примерно в половине случаев, а в другой - неверным. Это надежно . Если вместо этого мы надеемся быть правыми, скажем, времени, что означает, что мы действительно хотим ошибаться только $\alpha=50\%$ $50\%$ $95\%$ $5\%$ тогда мы должны быть готовы к тому, что частота наших ошибок будет намного выше в случае, если мир не будет работать так, как предполагает наша модель.

Кстати, это свойство ДИ в значительной степени сохраняется, потому что мы изучаем симметричные доверительные интервалы . Для искаженных распределений индивидуальные пределы доверия могут быть ужасными (и вовсе не устойчивыми), но их ошибки часто сводятся на нет. Как правило, один хвост короткий, а другой длинный, что приводит к чрезмерному покрытию на одном конце и недостаточному покрытию на другом. Я считаю , что доверительные пределы не будет в любом ближайшем так надежен , как и соответствующие интервалы. $50\%$ $50\%$

Это Rкод, который создал графики. Он легко модифицируется для изучения других распределений, других доверительных интервалов и других процедур КИ.

#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
                      Uniform=function(n) runif(n, -1, 1),
                      Normal=rnorm, 
                      #Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
                      Exponential=function(n) rexp(n) - 1,
                      Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1))) 
  mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
  x <- matrix(dist(n.sim*n.sample), n.sample)
  x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
                dimnames=list(Endpoint=c("Lower", "Upper"),
                              Alpha=alpha.s,
                              NULL))
  covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
  rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))         
plot(range(alpha.logit), c(-2,1), type="n", 
     main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
     xlab="Logit(alpha)", 
     ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}

plot(range(alpha), c(-0.2, 0.05), type="n", 
     main="Raw Confidence Interval Accuracies", cex.main=0.8,
     xlab="alpha", 
     ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}

— Whuber
источник

Это интересная идея, и я вижу, насколько она интуитивно понятна, но я думаю, что она слишком расплывчата, чтобы быть правдой или ложью. Вот пара вопросов, которые я хотел бы прояснить для комментатора:

Доверительный интервал для чего (среднее значение, дисперсия, что-то еще)?
Как рассчитывался интервал (с использованием теории больших выборок, начальной загрузки и т. Д.)?
В каком смысле именно 50% ДИ будет «более устойчивым» или «менее чувствительным», и к каким предположениям?

С различными ответами на эти вопросы, я думаю, мы могли бы сделать это утверждение истинным или ложным.

Я предполагаю, что комментатор имеет в виду:

доверительный интервал для среднего значения, рассчитанного с использованием теории больших выборок,
где распределение данных не загрязнено выбросами, а происходит из распределения, отличного от нормального, которое аналогично нормальному в середине, но не из хвостов,
и идея состоит в том, что истинное асимптотическое покрытие более близко соответствует номинальному покрытию.

Если это то, что имеет в виду комментатор, в зависимости от того, как хвосты дистрибутива компенсируют его плечи, утверждение может быть верным.

Например, рассмотрим график CDF с нормальным распределением и несколькими низкочастотными распределениями (скопировано из Википедии ). Доверительный интервал, основанный на нормали от до будет иметь почти соответствующее покрытие для low-df s, если они представляют истинное значение выборочные распределения рассматриваемой статистики. Фактически, похоже, что 20-процентный доверительный интервал будет иметь почти идеальное покрытие, даже в случае распределения Коши ( ): $t$ $\Phi^{-1}(.25)$ $\Phi^{-1}(.75)$ $t$ $t_{df = 1}$

— Gung - Восстановить Монику
источник