Принимая ожидание серии Тейлор (особенно остаток)


43

Мой вопрос касается попыток обосновать широко используемый метод, а именно, взять ожидаемое значение ряда Тейлора. Предположим, у нас есть случайная величина с положительным средним и дисперсией . Кроме того, у нас есть функция, скажем, .μ σ 2 log ( x )Xμσ2log(x)

Выполняя разложение Тейлора вокруг среднего значения, мы получаем где, как обычно, - это st,log X = log μ + X - μlogX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Если мы возьмем ожидание, мы получим приблизительное уравнение, которое люди обычно называют чем-то само собой разумеющимся (см. Знак в первом уравнении здесь)E log X log μ - 1 :

ElogXlogμ12σ2μ2

ВОПРОС : Меня интересует, как доказать, что ожидаемое значение остаточного члена на самом деле ничтожно, т.е. (или, другими словами, ).

E[(Xμ)3ξX3]=o(σ2)
E[o(Xμ)2]=o(E[(Xμ)2])

То, что я пытался сделать : предполагая, что (что, в свою очередь, означает в \ mathbb {P} ), я попытался разбить интеграл на два, окружив \ mu некоторыми \ varepsilon -vicinity N_ \ varepsilon : \ int_ \ mathbb {R} p (x) \ frac {(x- \ mu) ^ 3} {\ xi_x ^ 3} \, dx = \ int_ {x \ in N_ \ varepsilon} \ ldots dx + \ int_ {x \ notin N_ \ varepsilon} \ ldots dx Х ц Р ц & epsi ; N & epsi ; R р ( х ) ( х - ц ) 3σ20XμPμεNε

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

Первый может быть ограничен из-за того, что и, следовательно, не беспокоит. Но со вторым мы имеем два совпадающих факта: с одной стороны, (как ). Но с другой стороны, мы не знаем, что делать с . 1 / ξ 3 P ( | X - μ | > ε ) 0 σ 20 1 / ξ 30Nε1/ξ3

P(|Xμ|>ε)0
σ201/ξ3

Другой возможностью может быть попытка использовать лемму Фату, но я не могу понять, как.

Буду признателен за любую помощь или подсказку. Я понимаю, что это своего рода технический вопрос, но мне нужно пройти его, чтобы доверять этому методу «ожидания Тейлора». Благодарность!

PS Я проверил здесь , но, кажется, это немного другое.


Почему перед третьим членом разложения Тейлора стоит знак минус? И почему в четвертом семестре а не? Что мне не хватает? 3 !33!
Алекос Пападопулос

@Alecos: Просто посмотрите на ю производную от . Это ответит на оба ваших вопроса. log xnlogx
кардинал

4
(+1) Эта проблема недавно возникла при обсуждении двух вопросов, связанных с поиском моментов . Это платит, чтобы позаботиться о таких вещах. :-)X1
кардинал

1
Аппроксимация первого порядка на самом деле может быть лучше в некоторых случаях из-за теоремы о среднем значении. Не уверен, что теорема о среднем значении поможет в общем случае.
вероятностная

1
Я бы подумал, что здесь может быть полезна теорема о доминируемой сходимости, поскольку уравнение представляет собой взаимозаменяемость границ и интегрирование. E(o(..))=o(E(..))
вероятностная

Ответы:


32

Вы правы, что скептически относитесь к такому подходу. Метод рядов Тейлора вообще не работает, хотя эвристика содержит ядро ​​истины. Подводя итог технической дискуссии ниже,

  • Сильная концентрация подразумевает, что метод рядов Тейлора работает для хороших функций
  • Все может и будет идти резко неправильно для распределений с тяжелыми хвостами или не очень хороших функций

Как показывает ответ Алекоса, это говорит о том, что метод ряда Тейлора следует отказаться, если ваши данные могут иметь тяжелые хвосты. (Профессионалы в области финансов, я смотрю на вас.)

Как отметил Элвис, ключевая проблема заключается в том, что дисперсия не контролирует более высокие моменты . Чтобы понять почему, давайте максимально упростим ваш вопрос, чтобы добраться до основной идеи.

Предположим, у нас есть последовательность случайных величин с при .Xnn σ(Xn)0n

Q: Можем ли мы гарантировать, что приn ?E[|Xnμ|3]=o(σ2(Xn))n?

Поскольку есть случайные величины с конечными вторыми моментами и бесконечными третьими моментами, ответ категорически нет . Поэтому в общем случае метод рядов Тейлора не работает даже для полиномов 3-й степени . Повторение этого аргумента показывает, что вы не можете ожидать, что метод рядов Тейлора даст точные результаты, даже для полиномов, если все моменты вашей случайной величины не контролируются должным образом.

Что же нам тогда делать? Конечно, метод работает для ограниченных случайных величин, поддержка которых сходится к точке, но этот класс слишком мал, чтобы быть интересным. Предположим вместо этого, что последовательность происходит из некоторого высококонцентрированного семейства, которое удовлетворяет (скажем)Xn

(1)P{|Xnμ|>t}eCnt2

для каждого и некоторого . Такие случайные величины удивительно распространены. Например, когда является эмпирическим среднимC > 0 X nt>0C>0Xn

Xn:=1ni=1nYi

из хороших случайных величин (например, iid и ограниченный), различные неравенства концентрации подразумевают, что удовлетворяет (1). Стандартный аргумент (см. Стр. 10 здесь ) ограничивает й момент для таких случайных величин:X n pYiXnp

E[|Xnμ|p](p2Cn)p/2.

Поэтому для любой «достаточно хорошей» аналитической функции (см. Ниже) мы можем связать ошибку в приближении рядов терма, используя неравенство треугольникаЕ м мfEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

когда . Поскольку приближение Стерлинга дает , погрешность усеченного ряда Тейлора удовлетворяетp ! р р - 1 / 2n>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

Следовательно, когда сильно сконцентрирован и достаточно хорош, приближение ряда Тейлора действительно является точным. Из неравенства (2) следует, что , так что , в частности , наше условие требует, чтобы это все . Это имеет смысл, поскольку (1) не накладывает никаких предположений об ограниченности на . f f ( p ) ( μ ) / p ! = O ( p - p / 2 ) f X nXnff(p)(μ)/p!=O(pp/2)fXn

Давайте посмотрим, что может пойти не так, когда имеет особенность (после комментария Вубера). Предположим, что мы выбрали . Если мы возьмем из распределения усеченного между нулем и двумя, то достаточно сконцентрирован, но для каждого . Другими словами, мы имеем высококонцентрированную ограниченную случайную величину , и все же метод рядов Тейлора не работает, когда функция имеет только одну особенность.f ( x ) = 1 / x X n N o r m a l ( 1 , 1 / n ) X n E [ f ( X n ) ] = nff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n

Несколько слов о строгости. Я считаю, что лучше представить условие, появляющееся в (2), как производное, а не deus ex machina, которое требуется в строгом формате теоремы / доказательства. Чтобы сделать аргумент полностью строгим, сначала отметим, что правая часть в (2) подразумевает, что

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

по темпам роста субгауссовых моментов сверху. Таким образом, теорема Фубини дает

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

Остальная часть доказательства продолжается, как указано выше.


1
Возможно, я пропустил это в кратком чтении, но вы утверждаете (среди прочего), что при условии, что третий момент достаточно «под контролем», тогда ожидание может быть разумно приближено, принимая ожидания [Маклаурин] серия ? Я обеспокоен , потому что я не видел каких - либо ссылок на свойства сходимости самого ряда, которые по крайней мере так важны , как хвосты распределения . log ( X ) log XXlog(X)logX
whuber

2
@whuber Вы правы; вам понадобится поддержка чтобы быть в ROC ряда Тейлора, поэтому, в частности, почти наверняка. Я обновлю пост, чтобы отразить это. 0 < Х < 2 мкмX0<X<2μ
Майк Маккой

2
Я все еще думаю, что что-то упустил. Например, когда имеет нормальное распределение, усеченное до , оно, очевидно, является «высококонцентрированным», имеет среднее значение и почти наверняка находится в пределах радиуса сходимости (который является аналитическим внутри единичного диска с центром в , который содержит ), но бесконечно. ( 1 , 1 ) ( 0 , 2 ) μ = 1 f ( x ) = 1 / x = 1 / ( 1 - ( 1 - x ) ) 1 ( 0 , 2 μ ) E [ f ( X ) ]X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1(0,2μ)E[f(X)]
whuber

1
@gron Вы сделали небольшую ошибку. Когда , производная . Условие не выполняется, потому что для любого . Вы также можете проверить, что (2) не выполняется, потому что любая функция, которая удовлетворяет (2), также удовлетворяет , и, следовательно, имеет никаких особенностей ( вся , по ссылке). | f ( p ) ( μ ) | = р ! / μ p (2) = p ! p ( 1 - p / 2 ) μ pμ > 0 log ( p ! f ( p ) ( μ ) ) / p - ff(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0log(p!f(p)(μ))/pf
Майк Маккой

1
@gron Вам нужны две вещи: (1) убедиться, что ваш RV имеет поддержку строго в пределах ROC степенного ряда журнала (т. е. для ), и (2) убедитесь, что моменты RV уменьшаются достаточно быстро, чтобы оценка погрешности для выше была конечной. Что касается того, как управлять моментами, вы должны задать новый вопрос, потому что он займёт слишком много персонажей (и мне самому любопытно узнать о новых способах). ε > 0 Е м[0+ε,2με]ε>0Em
Майк Маккой

10

Хотя мой ответ нигде не приблизится к уровню математической сложности других ответов, я решил опубликовать его, потому что считаю, что он может внести свой вклад - хотя результат, как говорится, будет «отрицательным».

Легким тоном я бы сказал, что ОП «не склонна к риску» (как и большинство людей, равно как и сама наука), потому что ОП требует достаточного условия, чтобы приближение разложения в ряд Тейлора 2-го порядка «было бы» приемлемо". Но это не обязательное условие.

Во-первых, необходимая, но не достаточная предпосылка для того, чтобы ожидаемое значение Остатка было более низкого порядка, чем дисперсия rv, как того требует ОП, состоит в том, что ряд сходится в первую очередь. Должны ли мы просто предполагать сходимость? Нет.

Общее выражение, которое мы исследуем,

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Как утверждает Лойстл (1976) , ссылаясь на книгу Джеминьяни «Исчисление и статистика» (1978, стр. 170), условием сходимости бесконечной суммы является (применение теста отношения для сходимости)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

... где - среднее значение rv. Хотя это также является достаточным условием (критерий отношения неубедителен, если вышеуказанное соотношение выполняется с равенством), ряд будет расходиться, если неравенство выполнено в другом направлении.μ

Лоистль исследовал три специфические функциональные формы для , экспоненту, мощность и логарифм (его статья находится в области «Ожидаемая полезность и выбор портфеля», поэтому он протестировал стандартные функциональные формы, используемые для представления вогнутой функции полезности). Для этих функциональных форм он обнаружил, что только для экспоненциальной функциональной формы никаких ограничений на не накладывалось. Напротив, для степени и для логарифмического случая (где у нас уже есть ), мы находим, что справедливость неравенства эквивалентна g()yμ0<y[2]

yμ<μ0<y<2μ

Это означает, что если наша переменная изменяется за пределами этого диапазона, расширение Тейлора, имеющее в качестве центра расширения среднее значение переменной, будет расходиться.

Итак: для некоторых функциональных форм значение функции в некоторой точке ее области равно ее бесконечному разложению по Тейлору, независимо от того, как далеко эта точка находится от центра расширения. Для других функциональных форм (включая логарифм) интересующий объект должен находиться несколько «близко» к выбранному центру расширения. В случае, когда у нас есть rv, это означает ограничение на теоретическую поддержку переменной (или исследование ее эмпирически наблюдаемого диапазона).

Лойтл, используя числовые примеры, также показал, что увеличение порядка расширения перед усечением может ухудшить точность аппроксимации. Мы должны отметить, что опытным путем временные ряды наблюдаемых переменных в финансовом секторе демонстрируют изменчивость, большую, чем та, которая требуется неравенством. Итак, Лойтл продолжал выступать за то, чтобы методология аппроксимации ряда Тейлора была полностью отменена, в отношении теории выбора портфеля.

Восстановление пришло 18 лет спустя от Главички (1994) . Ценное понимание и результат здесь был, и я цитирую

... хотя ряд может в конечном итоге сходиться, мало что можно сказать о любом из его частичных рядов; конвергенция ряда не означает, что члены сразу уменьшаются в размере или что какой-либо конкретный термин достаточно мал, чтобы его можно было игнорировать. Действительно, как показано здесь, возможно, что ряд может казаться расходящимся, прежде чем в конечном итоге сходится в пределе. Следовательно, качество моментных приближений к ожидаемой полезности, основанных на первых нескольких членах ряда Тейлора, не может быть определено свойствами сходимости бесконечного ряда. Это эмпирическая проблема, и эмпирически, двухкомпонентные приближения к функциям полезности, изученным здесь, хорошо справляются с задачей выбора портфеля. Главичка (1994)

Например, Главичка показал, что приближение 2-го порядка было «успешным» независимо от того, сходился ли ряд Тейлора или нет , но он также проверил результат Лотля, что увеличение порядка приближения может ухудшить ситуацию. Но для этого успеха есть определитель: в «Выбор портфеля» «Ожидаемая полезность» используется для ранжирования ценных бумаг и других финансовых продуктов. Это порядковая мера, а не кардинальная. Итак, Главичка обнаружил, что приближение 2-го порядка сохранило ранжирование различных ценных бумаг по сравнению с ранжированием, вытекающим из точного значения , а неE(g(Y) что он всегда давал количественные результаты, которые были достаточно близки к этому точному значению (см. его таблицу А1 на с. 718).

Так, где это оставляет нас? В подвешенном состоянии, я бы сказал. Представляется, что как в теории, так и в эмпирике приемлемость приближения Тейлора 2-го порядка критически зависит от многих различных аспектов исследуемого конкретного явления и используемой научной методологии - от теоретических предположений, от используемых функциональных форм, на наблюдаемой изменчивости ряда ...

Но давайте положительно покончим с этим: в наши дни мощь компьютера заменяет многое. Таким образом, мы могли бы смоделировать и проверить справедливость приближения 2-го порядка для широкого диапазона значений переменной, независимо от того, работаем ли мы над теоретической или эмпирической задачей.


8

Не фактический ответ, но пример, чтобы показать, что все не так хорошо, и что для подтверждения этого результата необходимы дополнительные гипотезы.

Определите как смесь между равномерным и нормальным , причем равномерная компонента выбирается с вероятностью , а нормаль - с вероятностью . Вы имеете и его дисперсия сходится к когда уходит в бесконечность, так как если я не ошибаюсь.XnU([1n;1n])N(nn1,1n)1n11n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

Теперь определите (и или что-то еще). Случайные величины хорошо определены, но не имеют ожидаемого значения, так как не определено, независимо от того, насколько велико .f ( 0 ) = 0 f ( X n ) 1f(x)=1/xf(0)=0f(Xn)н

1n1n1xdx
n

Мой вывод заключается в том, что вам явно нужны гипотезы либо о глобальном поведении либо, что более вероятно, более элегантно, о скорости, с которой плотность уменьшается, когда вы далеки от ожидаемого значения. Я уверен, что такие гипотезы можно найти в классической литературе (и даже в учебниках), к сожалению, я не занимался статистикой, и я все еще сам борюсь с литературой ... в любом случае, надеюсь, это помогло.х нfXn

PS. Разве этот пример не является контрпримером к ответу Ника? Кто тогда не прав?


1
E[Xk]k=1,2,3

f(x)x=μf(x)=1xx=0f

μ=1

1
Элвис, да, нам нужно глобальное состояние. По сути, остаток должен вести себя хорошо после того, как он взвешен хвостами распределения. Что-то похожее на ваш пример, который появился недавно, смотрите здесь , здесь и здесь .
кардинал

4

Это не полный ответ, просто другой способ достижения приближения второго порядка.

f(X)=f(μ)+f(ξ1)(Xμ)

Xξ1μXμXξ1μXμf(ξ1)

f(ξ1)=f(μ)+f(ξ2)(ξ1μ)

Xξ1ξ2μXμXξ1ξ2μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

fXμXXξiξ1μ=12(Xμ)ξ2=μX

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.