РЕДАКТИРОВАТЬ: оригинальная версия пропустила абсолютное значение. извиняюсь!!
Привет, Ян. Я кратко опишу два выборочных неравенства, одно из которых использует границу Липшица, другое - границу второй производной, а затем расскажу о некоторых трудностях в этой задаче. Хотя я избыточен, поскольку подход, использующий одну производную, объясняет, что происходит с большим количеством производных (через Тейлора), оказывается, что вторая производная версия довольно хороша.
Во-первых, с привязкой по Липшицу: просто пересмотрите стандартное неравенство Дженсена. Применяется тот же трюк: вычислить расширение Тейлора с ожидаемым значением.
В частности, пусть имеет соответствующую меру µ и положим m : = E ( x ) . Если f имеет постоянную Липшица L , то по теореме ТейлораXμm:=E(x)fL
f(x)=f(m)+f′(z)(x−m)≤f(m)+L|x−m|,
где (обратите внимание, что x ≤ m и x > m возможны). Используя это и переделывая доказательство Дженсена (я параноик и проверил, что стандартное действительно есть в Википедии),z∈[m,x]x≤mx>m
E(f(X))=∫f(x)dμ(x)≤f(m)∫dμ(x)+L∫|x−m|dμ(x)=f(E(X))+LE(|X−E(X)|).
Теперь предположим, что . В этом случае,|f′′(x)|≤λ
f(x)=f(m)+f′(m)(x−m)+f′′(z)(x−m)22≤f(m)+f′(m)(x−m)+λ(x−m)22,
и так
E(f(X))≤f(m)+f′(m)(E(X)−m)+λE((X−m)2)2=f(E(X))+λVar(X)2.
Я хотел бы кратко упомянуть несколько вещей. Извините, если они очевидны.
Во-первых, вы не можете просто сказать «wlog », сдвигая распределение, потому что вы меняете отношение между f и μ .E(X)=0fμ
Далее следует, что оценка должна каким-то образом зависеть от распределения. Чтобы увидеть это, представьте, что и f ( x ) = x 2 . Независимо от значения σ , вы все равно получите f ( E ( X ) ) = f ( 0 ) = 0 . С другой стороны, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Таким образом, изменяя σ , вы можете сделать зазор между двумя величинами произвольным! Интуитивно понятно, что больше массы отталкивается от среднего значения, и поэтому для любой строго выпуклой функции E ( f ( X ) ) будет увеличиваться.E(f(X))=E(X2)=σ2σE(f(X))
Наконец, я не вижу, как получить мультипликативный предел, как вы предлагаете. Все, что я использовал в этом посте, является стандартным: теорема Тейлора и производные оценки являются статистикой, и они автоматически дают аддитивные, а не мультипликативные ошибки.
Я подумаю об этом, и что-нибудь напишу. Неясная интуиция заключается в том, что потребуются очень напряженные условия как для функции, так и для распределения, и что аддитивная граница фактически лежит в основе этого.