Экспоненциальная верхняя граница

Предположим, у нас есть случайные величины IID с распределением . Мы будем наблюдать образец 'ы следующим образом: пусть быть независимыми случайные величины, предположим , что все х и «s являются независимыми и определяют размер выборки . В «s показывают , какой из » с в образце, и мы хотим , чтобы изучить часть успехов в образце , определяемом $X_1,\dots,X_n$ $\mathrm{Ber}(\theta)$ $X_i$ $Y_1,\dots,Y_n$ $\mathrm{Ber}(1/2)$ $X_i$ $Y_i$ $N=\sum_{i=1}^n Y_i$ $Y_i$ $X_i$

Z = {\begin{cases} \frac{1}{N} \sum_{i = 1}^{n} X_{i} Y_{i} & if N > 0, \\ 0 & if N = 0 . \end{cases}

$Z = \begin{cases} \frac{1}{N}\sum_{i=1}^n X_i Y_i & \text{if}\quad N > 0\, , \\ 0 & \text{if} \quad N = 0 \, . \end{cases}$ Для мы хотим найти верхнюю границу для которая экспоненциально убывает с . Неравенство Хеффдинга не применяется немедленно из-за зависимостей между переменными.

ϵ > 0

$\epsilon>0$

P r (Z \geq θ + ϵ)

$\mathrm{Pr}\!\left(Z \geq \theta + \epsilon\right)$

n

$n$

probability-inequalities

— Zen
источник

Пусть . (i) Разве не зависит от ? (ii) не ? ... В результате, мне не ясно, что не является «суммой независимых случайных величин»

Z_{i} = \frac{_{1}}{^{N}} X_{i} Y_{i}

$Z_i = \frac{_1}{^N} X_iY_i$

Z_{i}

$Z_i$

Z_{j \neq i}

$Z_{j\neq i}$

Z = \sum Z_{i}

$Z=\sum Z_i$

Z

$Z$

— Glen_b -Reinstate Monica

Ах, хорошая мысль. Я думал о , а не о . Но вы не можете вместо этого написать и позволить ? То есть сумма по всем случаям, независимо от того, равен ли 1 или 0. ... нет, это не работает. Числитель такой же, но знаменатель другой.

n

$n$

N

$N$

Z_{i} = \frac{1}{n} X_{i} Y_{i}

$Z_i = \frac{1}{n}X_iY_i$

Z = \sum_{i = 1}^{n} Z_{i}

$Z=\sum_{i=1}^n Z_i$

Y

$Y$

— Glen_b

Это дает меньше доли успехов в выборке, что представляет собой интерес к задаче, потому что , так как .

(1 / n) \sum_{i = 1}^{n} X_{i} Y_{i} \leq (1 / N) \sum_{i = 1}^{n} X_{i} Y_{i}

$(1/n)\sum_{i=1}^n X_i Y_i\leq (1/N)\sum_{i=1}^n X_i Y_i$

N \leq n

$N\leq n$

— Дзен

Да, именно поэтому я закончил с «нет, это не работает». Существуют неравенства, которые применяются к независимому случаю, например, некоторые из неравенств Бернштейна (см. Четвертый пункт), и существует ряд неравенств, применимых к мартингалам (хотя я не знаю, будут ли они применяться здесь).

— Glen_b

Я посмотрю, а также попробую найти связь с результатами мартингейла. Оценка для очень проста ( ) что заманчиво связать это с используя какое-то условие.

U = (1 / n) \sum_{i = 1}^{n} X_{i} Y_{i}

$U=(1/n)\sum_{i=1}^nX_i Y _i$

P r (U \geq θ / 2 + ϵ) \leq \exp (- 2 n ϵ^{2})

$\mathrm{Pr}(U\geq \theta/2+\epsilon)\leq \exp(-2n\epsilon^2)$

Z

$Z$

— Дзен

Ответы:

Мы можем установить прямую связь с неравенством Хеффдинга .

Обратите внимание, что у нас есть

{Z > θ + ϵ} = {\sum_{i} X_{i} Y_{i} > (θ + ϵ) \sum_{i} Y_{i}} = {\sum_{i} (X_{i} - θ - ϵ) Y_{i} > 0} .

$\{ Z > \theta + \epsilon\} = \big\{\sum_i X_i Y_i > (\theta + \epsilon)\sum_i Y_i \big\} = \big\{ \sum_i (X_i - \theta - \epsilon) Y_i > 0 \} \>.$

Установите так, чтобы были iid, и простым применением неравенства Хеффдинга (поскольку и поэтому принимают значения в интервале первого размера). $Z_i = (X_i - \theta - \epsilon)Y_i + \epsilon/2$ $Z_i$ $\mathbb E Z_i = 0$

P (Z > θ + ϵ) = P (\sum_{i} Z_{i} > n ϵ / 2) \leq e^{- n ϵ^{2} / 2},

$\mathbb P( Z > \theta + \epsilon ) = \mathbb P\big(\sum_i Z_i > n \epsilon/2\big) \leq e^{-n \epsilon^2/2}\>,$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

За последние несколько лет появилась обширная и увлекательная литература, в частности, по темам, связанным с теорией случайных матриц, с различными практическими приложениями. Если вы заинтересованы в таких вещах, я настоятельно рекомендую:

Р. Вершинин, Введение в неасимптотический анализ случайных матриц , глава 5 «Сжатое зондирование, теория и приложения». Под редакцией Ю. Эльдара и Г. Кутыниока. Издательство Кембриджского университета, 2012.

Я думаю, что экспозиция ясна и дает очень хороший способ быстро привыкнуть к литературе.

— кардинальный
источник

Поскольку включает в свое определение, у меня сложилось впечатление, что (граница не меняется).

Z_{i}

$Z_i$

ϵ / 2

$\epsilon/2$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

— Алекос Пападопулос

Уважаемый @Zen: Обратите внимание, что тщательный учет случая позволит вам заменить строгое неравенство на везде без изменения окончательной границы.

N = 0

$N=0$

>

$>$

\geq

$\geq$

— кардинал

Уважаемый @cardinal: я перефразировал вопрос, потому что на самом деле является (слегка) смещенной оценкой , поскольку .

Z

$Z$

θ

$\theta$

E [Z] = E [I_{{N = 0}} Z] + E [I_{{N > 0}} Z] = (1 - 1 / 2^{n}) θ

$\mathrm{E}[Z]=\mathrm{E}[I_{\{N=0\}}Z]+\mathrm{E}[I_{\{N>0\}}Z] = (1-1/2^n)\,\theta$

— Дзен

Детали, чтобы заботиться о случае . $N=0$

\begin{aligned} {Z \geq θ + ϵ} & = ({Z \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = ({0 \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = (\emptyset \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \cap {N > 0} \\ \subset {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \\ = {\sum_{i = 1}^{n} (X_{i} - θ - ϵ) Y_{i} \geq 0} \\ = {\sum_{i = 1}^{n} ((X_{i} - θ - ϵ) Y_{i} + ϵ / 2) \geq n ϵ / 2} . \end{aligned}

$\begin{align} \{Z\geq\theta+\epsilon\} &= \left(\{Z\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\{0\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\emptyset \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \cap \{N>0\} \\ &\subset \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \\ &= \left\{\sum_{i=1}^n (X_i-\theta-\epsilon)Y_i\geq 0\right\} \\ &= \left\{\sum_{i=1}^n \left((X_i-\theta-\epsilon)Y_i+\epsilon/2\right)\geq n\epsilon/2\right\} \, . \end{align}$

Для Алекоса.

\begin{aligned} E [\sum_{i = 1}^{n} W_{i}] & = E [I_{{\sum_{i = 1}^{n} Y_{i} = 0}} \sum_{i = 1}^{n} W_{i}] + E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \sum_{i = 1}^{n} W_{i}] \\ = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \frac{\sum_{i = 1}^{n} Y_{i}}{\sum_{i = 1}^{n} Y_{i}}] = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}}] = 1 - 1 / 2^{n} . \end{aligned}

$\begin{align} \mathrm{E}\!\left[\sum_{i=1} ^n W_i\right]&=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i=0\}}\sum_{i=1} ^n W_i\right] + \mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\sum_{i=1} ^n W_i\right] \\ &=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\frac{\sum_{i=1} ^n Y_i}{\sum_{i=1}^n Y_i}\right]=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\right]=1-1/2^n \, . \end{align}$

— Zen
источник

Этот ответ продолжает мутировать. Текущая версия не имеет отношения к обсуждению, которое я имел с @cardinal в комментариях (хотя именно благодаря этому обсуждению я, к счастью, понял, что подход к созданию условий ни к чему не привел).

Для этой попытки я буду использовать другую часть оригинальной статьи Хеффдинга 1963 года , а именно раздел 5 «Суммы зависимых случайных величин».

Установите

W_{i} \equiv \frac{Y_{i}}{\sum_{i = 1}^{n} Y_{i}}, \sum_{i = 1}^{n} Y_{i} \neq 0, \sum_{i = 1}^{n} W_{i} = 1, n \geq 2

$W_i \equiv \frac {Y_i}{\sum_{i=1}^nY_i}, \qquad \sum_{i=1}^nY_i \neq 0, \qquad \sum_{i=1}^nW_i=1, \qquad n\geq 2$

в то время как мы устанавливаем если . $W_i =0$ $\sum_{i=1}^nY_i = 0$

Тогда у нас есть переменная

Z_{n} = \sum_{i = 1}^{n} W_{i} X_{i}, E (Z_{n}) \equiv μ_{n}

$Z_n= \sum_{i=1}^nW_iX_i, \qquad E(Z_n) \equiv \mu_n$

Нас интересует вероятность

P r (Z_{n} \geq μ_{n} + ϵ), ϵ < 1 - μ_{n}

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon), \qquad \epsilon < 1-\mu_n$

Как и для многих других неравенств, Хоффдинг начинает свои рассуждения, отмечая, что и это

P r (Z_{n} \geq μ_{n} + ϵ) = E [1_{{Z_{n} - μ_{n} - ϵ \geq 0}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) = E\left[\mathbf 1_{\{Z_n-\mu_n -\epsilon \geq 0\}}\right]$

1_{{Z_{n} - μ_{n} - ϵ \geq 0}} \leq \exp {h (Z_{n} - μ_{n} - ϵ)}, h > 0

$\mathbf 1_{\{Z_n-\mu_n -\epsilon\geq 0\}} \leq \exp\Big\{h(Z_n-\mu_n -\epsilon)\Big\}, \qquad h>0$

Для случая зависимых переменных, в качестве Хеффдинга мы используем тот факт, что и вызываем неравенство Дженсена для (выпуклой) экспоненциальной функции, чтобы записать $\sum_{i=1}^nW_i=1$

e^{h Z_{n}} = \exp {h (\sum_{i = 1}^{n} W_{i} X_{i})} \leq \sum_{i = 1}^{n} W_{i} e^{h X_{i}}

$e^{hZ_n} = \exp\left\{h\left(\sum_{i=1}^nW_iX_i\right)\right\} \leq \sum_{i=1}^nW_ie^{hX_i}$

и связывая результаты, чтобы прийти к

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} E [\sum_{i = 1}^{n} W_{i} e^{h X_{i}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}E\left[\sum_{i=1}^nW_ie^{hX_i}\right]$

Сосредоточив внимание на нашем случае, поскольку и независимы, ожидаемые значения могут быть разделены, $W_i$ $X_i$

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} \sum_{i = 1}^{n} E (W_{i}) E (e^{h X_{i}})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}\sum_{i=1}^nE(W_i)E\left(e^{hX_i}\right)$

В нашем случае - это Бернулли с параметром , а - их общая функция, генерирующая моменты в , . Так $X_i$ $\theta$ $E[e^{hX_i}]$ $h$ $E[e^{hX_i}] = 1-\theta +\theta e^h$

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} (1 - θ + θ e^{h}) \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}(1-\theta +\theta e^h)\sum_{i=1}^nE(W_i)$

Минимизируя RHS по отношению к , получаем $h$

e^{h^{*}} = \frac{(1 - θ) (μ_{n} + ϵ)}{θ (1 - μ_{n} - ϵ)}

$e^{h^*} = \frac {(1-\theta)(\mu_n+\epsilon)}{\theta(1-\mu_n-\epsilon)}$

Включив его в неравенство и манипулируя, мы получаем

P r (Z_{n} \geq μ_{n} + ϵ) \leq {(\frac{θ}{μ_{n} + ϵ})}^{μ_{n} + ϵ} \cdot {(\frac{1 - θ}{1 - μ_{n} - ϵ})}^{1 - μ_{n} - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq \left(\frac {\theta}{\mu_n+\epsilon}\right)^{\mu_n+\epsilon}\cdot \left(\frac {1-\theta}{1-\mu_n-\epsilon}\right)^{1-\mu_n-\epsilon}\sum_{i=1}^nE(W_i)$

пока

P r (Z_{n} \geq θ + ϵ) \leq {(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq \left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon}\sum_{i=1}^nE(W_i)$

Хоффдинг показывает, что

{(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \leq e^{- 2 ϵ^{2}}

$\left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon} \leq e^{-2\epsilon^2}$

Предоставлено ОП (спасибо, я немного истощился ...)

\sum_{i = 1}^{n} E (W_{i}) = 1 - 1 / 2^{n}

$\sum_{i=1}^n E(W_i) =1-1/2^n$

Итак, наконец, подход «зависимых переменных» дает нам

P r (Z_{n} \geq θ + ϵ) \leq (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \equiv B_{D}

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq (1-\frac 1{2^n})e^{-2\epsilon^2} \equiv B_D$

Давайте сравним это с оценкой Кардинала, основанной на преобразовании «независимости», . Для того, чтобы наши были более тесными, нам нужно $B_I$

B_{D} = (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \leq e^{- n ϵ^{2} / 2} = B_{I}

$B_D=(1-\frac 1{2^n})e^{-2\epsilon^2} \leq e^{-n\epsilon^2/2}=B_I$

\Rightarrow \frac{2^{n} - 1}{2^{n}} \leq \exp {(\frac{4 - n}{2}) ϵ^{2}}

$\Rightarrow \frac {2^n-1}{2^n} \leq \exp\left\{\left(\frac {4-n}{2}\right)\epsilon^2\right\}$

Таким образом, для у нас есть . Для довольно быстро становится плотнее, чем но для очень маленьких , в то время как даже это маленькое "окно" быстро сходится к нулю. Например, для , если , то является более . Так что в целом оценка кардинала более полезна. $n\leq 4$ $B_D \leq B_I$ $n \geq 5$ $B_I$ $B_D$ $\epsilon$ $n=12$ $\epsilon \geq 0.008$ $B_I$

КОММЕНТАРИЙ
Чтобы избежать вводящих в заблуждение впечатлений относительно оригинальной статьи Хоффдинга, я должен упомянуть, что Хеффдинг рассматривает случай детерминированной выпуклой комбинации зависимых случайных величин. В частности, его являются числами, а не случайными переменными, в то время как каждый является суммой независимых случайных величин, в то время как между может существовать зависимость . Затем он рассматривает различные «U-статистики», которые могут быть представлены таким образом. $W_i$ $X_i$ $X_i$

— Алекос Пападопулос
источник

Alecos: (посмотрите на вывод в конце моего ответа). Ваша граница не уменьшается экспоненциально с как у кардинала.

E [W_{1}] = (1 - 1 / 2^{n}) / n

$\mathrm{E}[W_1]=(1-1/2^n)/n$

n

$n$

— Дзен

@Zen Действительно (на самом деле он увеличивается с размером выборки, хотя и ограниченно), поэтому граница Кардинала более полезна для большинства размеров выборки.

— Алекос Пападопулос