Ответы:
Этот вопрос, который охватывает общую ситуацию, заслуживает простого, не приблизительного ответа. К счастью, есть один.
Предположим, что являются независимыми значениями от неизвестного распределения F , в q- м квантиле которого я буду писать F - 1 ( q ) . Это означает, что у каждого X i есть шанс (по крайней мере) q быть меньше или равным F - 1 ( q ) . Следовательно, число X i, меньшее или равное F - 1 ( q ), имеет Бином ( n распределение.
Мотивированные этим простым соображением, Джеральд Хан и Уильям Микер в своем справочнике « Статистические интервалы» (Wiley 1991) пишут
Двусторонний консервативный доверительный интервал распределения для F - 1 ( q ) получается ... как [ X ( l ) , X ( u ) ]
где - статистика порядка выборки. Они продолжают говорить
Можно выбрать целые числа симметрично (или почти симметрично) вокруг q ( n + 1 ) и как можно ближе друг к другу при условии, что B ( u - 1 ; n , q ) - B ( l -) 1 ; n , q ) ≥ 1 - α .
Выражение слева - это вероятность того, что биномиальная переменная имеет одно из значений { l , l + 1 , … , u - 1 } . По- видимому, это вероятность того, что число значений данных X я попадающий в нижних 100 кв % распределениях не является ни слишком мало (меньше , чем л ) , ни слишком большая ( U или выше).
Хан и Микер следуют некоторыми полезными замечаниями, которые я процитирую.
Предыдущий интервал является консервативным, поскольку фактический уровень достоверности, заданный левой частью уравнения , превышает указанное значение 1 - α . ...
Иногда невозможно построить статистический интервал без распределения, который имеет хотя бы желаемый уровень достоверности. Эта проблема особенно остра при оценке процентилей в хвосте распределения по небольшой выборке. ... В некоторых случаях аналитик может справиться с этой проблемой, выбрав и u несимметрично. Другой альтернативой может быть использование пониженного уровня достоверности.
R
Среднее имитационное покрытие составило 0,9503; ожидаемое покрытие 0,9523
Соглашение между симуляцией и ожиданием превосходно.
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
отвлечение
Во-первых, нам нужно асимптотическое распределение эмпирического cdf.
Теперь, поскольку инверсия является непрерывной функцией, мы можем использовать дельта-метод.
Теперь примените дельта-метод, упомянутый выше.
Затем, чтобы построить доверительный интервал, нам нужно вычислить стандартную ошибку, подключив выборочные аналоги каждого из членов в дисперсии выше:
Результат