Этот ответ продолжает мутировать. Текущая версия не имеет отношения к обсуждению, которое я имел с @cardinal в комментариях (хотя именно благодаря этому обсуждению я, к счастью, понял, что подход к созданию условий ни к чему не привел).
Для этой попытки я буду использовать другую часть оригинальной статьи Хеффдинга 1963 года , а именно раздел 5 «Суммы зависимых случайных величин».
Установите
Wi≡Yi∑ni=1Yi,∑i=1nYi≠0,∑i=1nWi=1,n≥2
в то время как мы устанавливаем если .∑ n i = 1 Y i = 0Wi=0∑ni=1Yi=0
Тогда у нас есть переменная
Zn=∑i=1nWiXi,E(Zn)≡μn
Нас интересует вероятность
Pr(Zn≥μn+ϵ),ϵ<1−μn
Как и для многих других неравенств, Хоффдинг начинает свои рассуждения, отмечая, что
и это
Pr(Zn≥μn+ϵ)=E[1{Zn−μn−ϵ≥0}]
1{Zn−μn−ϵ≥0}≤exp{h(Zn−μn−ϵ)},h>0
Для случая зависимых переменных, в качестве Хеффдинга мы используем тот факт, что и вызываем неравенство Дженсена для (выпуклой) экспоненциальной функции, чтобы записать∑ni=1Wi=1
ehZn=exp{h(∑i=1nWiXi)}≤∑i=1nWiehXi
и связывая результаты, чтобы прийти к
Pr(Zn≥μn+ϵ)≤e−h(μn+ϵ)E[∑i=1nWiehXi]
Сосредоточив внимание на нашем случае, поскольку и независимы, ожидаемые значения могут быть разделены,WiXi
Pr(Zn≥μn+ϵ)≤e−h(μn+ϵ)∑i=1nE(Wi)E(ehXi)
В нашем случае - это Бернулли с параметром , а - их общая функция, генерирующая моменты в , . ТакXiθE[ehXi]hE[ehXi]=1−θ+θeh
Pr(Zn≥μn+ϵ)≤e−h(μn+ϵ)(1−θ+θeh)∑i=1nE(Wi)
Минимизируя RHS по отношению к , получаемh
eh∗=(1−θ)(μn+ϵ)θ(1−μn−ϵ)
Включив его в неравенство и манипулируя, мы получаем
Pr(Zn≥μn+ϵ)≤(θμn+ϵ)μn+ϵ⋅(1−θ1−μn−ϵ)1−μn−ϵ∑i=1nE(Wi)
пока
Pr(Zn≥θ+ϵ)≤(θθ+ϵ)θ+ϵ⋅(1−θ1−θ−ϵ)1−θ−ϵ∑i=1nE(Wi)
Хоффдинг показывает, что
(θθ+ϵ)θ+ϵ⋅(1−θ1−θ−ϵ)1−θ−ϵ≤e−2ϵ2
Предоставлено ОП (спасибо, я немного истощился ...)
∑i=1nE(Wi)=1−1/2n
Итак, наконец, подход «зависимых переменных» дает нам
Pr(Zn≥θ+ϵ)≤(1−12n)e−2ϵ2≡BD
Давайте сравним это с оценкой Кардинала, основанной на преобразовании «независимости», . Для того, чтобы наши были более тесными, нам нужноBI
BD=(1−12n)e−2ϵ2≤e−nϵ2/2=BI
⇒2n−12n≤exp{(4−n2)ϵ2}
Таким образом, для у нас есть . Для довольно быстро становится плотнее, чем но для очень маленьких , в то время как даже это маленькое "окно" быстро сходится к нулю. Например, для , если , то является более . Так что в целом оценка кардинала более полезна. B D ≤ B I n ≥ 5 B I B D ϵ n = 12 ϵ ≥ 0,008 B In≤4BD≤BIn≥5BIBDϵn=12ϵ≥0.008BI
КОММЕНТАРИЙ
Чтобы избежать вводящих в заблуждение впечатлений относительно оригинальной статьи Хоффдинга, я должен упомянуть, что Хеффдинг рассматривает случай детерминированной выпуклой комбинации зависимых случайных величин. В частности, его являются числами, а не случайными переменными, в то время как каждый является суммой независимых случайных величин, в то время как между может существовать зависимость . Затем он рассматривает различные «U-статистики», которые могут быть представлены таким образом.X i X iWiXiXi