Показать оценку сходится к процентили через статистику заказа

Пусть $X_1, X_2, \ldots, X_{3n}$ - последовательность случайных величин iid, взятых из альфа-стабильного распределения , с параметрами $\alpha = 1.5, \; \beta = 0, \; c = 1.0, \; \mu = 1.0$ .

Теперь рассмотрим последовательность $Y_1, Y_2, \ldots, Y_{n}$ , где $Y_{j+1} = X_{3j+1}X_{3j+2}X_{3j+3} - 1$ , для $j=0, \ldots, n-1$ .

Я хочу оценить $0.01-$ процентиль.

Моя идея - выполнить симуляцию Монте-Карло:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Вызов средних весь образца процентили вычислено быть и их дисперсия , вычислить соответствующий доверительный интервал для , я прибегаю к сильной форме центральной предельной теоремы : $0.01-$ $\hat{\mu}_n$ $\hat{\sigma}^{2}_{n}$ $\mu$

Пусть - последовательность iid случайных величин с и . Определение выборочного среднего как . $X_1, X_2, \ldots$ $E \left[ X_i \right] = \mu$ $0 < V \left[ X_i \right] = \sigma^2 < \infty$ $\hat{\mu}_n = (1/n) \sum_{i=1}^n X_i$ имеет предельное стандартное нормальное распределение, т.е. $(\hat{\mu}_n - \mu) / \sqrt{\sigma^{2}/n}$
$\frac{{\hat{μ}}_{n} - μ}{\sqrt{σ^{2} / n}} \overset{n \to \infty}{⟶} N (0, 1) .$ $\frac{\hat{\mu}_n - \mu}{\sqrt{\sigma^{2}/n}} \overset{n \rightarrow \infty} \longrightarrow N(0,1).$

и теорема Слуткси, заключающая, что

\sqrt{n} \frac{{\hat{μ}}_{n} - μ}{\sqrt{{\hat{σ}}_{n}^{2}}} \overset{n \to \infty}{⟶} N (0, 1) .

$\sqrt{n} \frac{\hat{\mu}_n - \mu}{\sqrt{\hat{\sigma}^{2}_{n}}} \overset{n \rightarrow \infty} \longrightarrow N(0,1).$

Тогда доверительный интервал для равен $(1-\alpha)\times 100\%$ $\mu$

где --квентиль стандартного нормального распределения.

I_{α} = [{\hat{μ}}_{n} - z_{1 - α / 2} \sqrt{\frac{{\hat{σ}}_{n}^{2}}{n}}, {\hat{μ}}_{n} + z_{1 - α / 2} \sqrt{\frac{{\hat{σ}}_{n}^{2}}{n}}],

$I_{\alpha} = \left[\hat{\mu}_n - z_{1- \alpha / 2} \sqrt{\frac{\hat{\sigma}^{2}_{n}}{n}} , \hat{\mu}_n + z_{1- \alpha / 2} \sqrt{\frac{\hat{\sigma}^{2}_{n}}{n}} \right],$

z_{1 - α / 2}

$z_{1- \alpha / 2}$

(1 - α / 2)

$(1- \alpha / 2)$

Вопросов:

1) мой подход правильный? Как я могу обосновать применение CLT? Я имею в виду, как я могу показать, что дисперсия конечна? (Должен ли я смотреть на дисперсию ? Потому что я не думаю, что она конечна ...) $Y_j$

2) Как я могу показать , что в среднем всего образца процентили вычислено сходится к истинному значению процентиля? (Я должен использовать статистику заказов, но я не уверен, как поступить; ссылки приветствуются.) $0.01-$ $0.01-$

— майя
источник

Все методы, применяемые для выборки медиан в stats.stackexchange.com/questions/45124, также применимы к другим процентилям. По сути, ваш вопрос идентичен этому, но просто заменяет 50-й процентиль на 1-й (или, возможно, 0,01?).

— whuber

@ whuber, ваш ответ на этот вопрос очень хороший. однако в конце своего поста (принятый ответ) Glen_b заявляет, что приблизительная нормальность «не относится к экстремальным квантилям, потому что CLT там не срабатывает (среднее значение Z не будет асимптотически нормальным» ). Для экстремальных ценностей нужна другая теория ". Насколько я должен быть обеспокоен этим утверждением?

— Майя

Я считаю, что он на самом деле имел в виду не экстремальные квантили , а только сами крайности . (Фактически он исправил этот пробел в конце того же предложения, назвав их «экстремальными значениями».) Различие заключается в том, что экстремальный квантиль, такой как 0,01 процентиль (который обозначает нижнюю 1/10000-ю часть Распределение) в пределе стабилизируется, потому что все больше и больше данных в выборке все равно будет падать ниже, а все больше и больше будет падать выше этого процентиля. С крайностью (такой как максимум или минимум), которая больше не имеет место.

— whuber

Это проблема, которая должна решаться в целом с использованием эмпирической теории процессов. Некоторая помощь о вашем уровне подготовки будет полезна.

— AdamO

Дисперсия не конечна. $Y$ Это происходит потому , что альфа-устойчивого переменные с (с распределением Хольцмарки ) не имеет конечный математическое ожидание , но его дисперсия бесконечна. Если бы имел конечную дисперсию , то, используя независимость и определение дисперсии, мы могли бы вычислить $X$ $\alpha=3/2$ $\mu$ $Y$ $\sigma^2$ $X_i$

\begin{aligned} σ^{2} = Var (Y) & = E (Y^{2}) - E (Y)^{2} \\ = E (X_{1}^{2} X_{2}^{2} X_{3}^{2}) - E (X_{1} X_{2} X_{3})^{2} \\ = E (X^{2})^{3} - {(E (X)^{3})}^{2} \\ = {(Var (X) + E (X)^{2})}^{3} - μ^{6} \\ = {(Var (X) + μ^{2})}^{3} - μ^{6} . \end{aligned}

$\eqalign{ \sigma^2 = \operatorname{Var}(Y) &= \mathbb{E}(Y^2) - \mathbb{E}(Y)^2 \\ &= \mathbb{E}(X_1^2X_2^2X_3^2) - \mathbb{E}(X_1X_2X_3)^2 \\ &= \mathbb{E}(X^2)^3 - \left(\mathbb{E}(X)^3\right)^2 \\ &= \left(\operatorname{Var}(X) + \mathbb{E}(X)^2\right)^3 - \mu^6 \\ &= \left(\operatorname{Var}(X) + \mu^2\right)^3 - \mu^6. }$

Это кубическое уравнение в $\operatorname{Var}(X)$ имеет по крайней мере одно реальное решение (и до трех решений, но не более), подразумевая, что будет конечным - но это не так. Это противоречие доказывает утверждение. $\operatorname{Var}(X)$

Давайте обратимся ко второму вопросу.

Любой квантиль выборки сходится к истинному квантилю по мере роста выборки. Следующие несколько параграфов подтверждают эту общую мысль.

Пусть соответствующая вероятность будет (или любое другое значение от до , исключая). Напишите для функции распределения, так что $q=0.01$ $0$ $1$ $F$ был квантилем. $Z_q=F^{-1}(q)$ $q^{\text{th}}$

Все, что нам нужно предположить, это то, что (квантильная функция) непрерывна. Это гарантирует нам, что для любого существуют вероятности и для которых $F^{-1}$ $\epsilon\gt 0$ $q_-\lt q$ $q_+\gt q$

F (Z_{q} - ϵ) = q_{-}, F (Z_{q} + ϵ) = q_{+},

$F(Z_q - \epsilon) = q_-,\quad F(Z_q + \epsilon) = q_+,$

и что при предел интервала равен . $\epsilon\to 0$ $[q_-, q_+]$ $\{q\}$

Рассмотрим любой образец iid размера . Число элементов этого образца, которые меньше, чем имеет биномиальное распределение, потому что каждый элемент независимо имеет шанс быть меньше, чем . Центральная предельная теорема (! Обычная одна) следует , что при достаточно большому , число элементов менее задаются нормальным распределением со средним и дисперсией $n$ $Z_{q_-}$ $(q_-, n)$ $q_-$ $Z_{q_-}$ $n$ $Z_{q_-}$ $nq_-$ (в сколь угодно хорошем приближении). Пусть CDF стандартного нормального распределения будет . Следовательно, вероятность того, что эта величина превышает сколь угодно близка к $nq_-(1-q_-)$ $\Phi$ $nq$

1 - Φ (\frac{n q - n q_{-}}{\sqrt{n q_{-} (1 - q_{-})}}) = 1 - Φ (\sqrt{n} \frac{q - q_{-}}{\sqrt{q_{-} (1 - q_{-})}}) .

$1-\Phi\left(\frac{nq - nq_-}{\sqrt{nq_-(1-q_-)}}\right) = 1-\Phi\left(\sqrt{n}\frac{q - q_-}{\sqrt{q_-(1-q_-)}}\right).$

Поскольку аргумент на в правой части является фиксированным кратным $\Phi$ , оно растет сколь угодно большим с ростом. Посколькуявляется CDF, его значение приближается произвольно близко к, показывая, что предельное значение этой вероятности равно нулю. $\sqrt{n}$ $n$ $\Phi$ $1$

$nq$ $Z_{q_-}$ $nq$ $Z_{q_+}$ $q$ $Z_q-\epsilon$ $Z_q+\epsilon$

$\epsilon$ $1-\alpha$ $n$ $nq$ $1-\alpha$ $\epsilon$ $Z_q$

$q=0.50$

$q=0.01$ $Y$ $n=300$ $Y$

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)

— Whuber
источник