Легко понятный аргумент, что нормальные методы Рунге – Кутты не могут быть обобщены на SDE?

Наивный подход к решению стохастических дифференциальных уравнений (SDE) будет:

возьмите обычный многошаговый метод Рунге – Кутты,
использовать достаточно точную дискретизацию основного процесса Винера,
сделайте каждый шаг метода Рунге – Кутты аналогичным методу Эйлера – Маруямы.

Теперь это терпит неудачу на нескольких уровнях, и я понимаю, почему. Однако теперь мне поручено убедить людей в этом факте, которые мало знакомы с методами Рунге – Кутты и стохастическими дифференциальными уравнениями. Все доводы, о которых я знаю, - это то, что я не могу хорошо передать в данном контексте. Следовательно, я ищу легко понятный аргумент, что вышеуказанный подход обречен.

runge-kutta education stochastic-ode

— Wrzlprmft
источник

@BiswajitBanerjee: я знаю об этом, и я действительно не утверждаю, что я понял это в максимально возможной степени. Тем не менее, я не думаю, что приведенные здесь аргументы улучшат ответ, поскольку те, кто может дать ответ, знают о них. Более того, этот случай является чем-то особенным, поскольку он объясняет, почему что-то не работает, на что, естественно, есть много ответов, начиная с «мы проверили это, и оно провалилось».

— Wrzlprmft

Я говорил не об экспертах по стохастическим ОДУ, а о среднестатистическом читателе, который понимает случайные величины и РК, когда я сказал «мы». Тем не менее, я не буду беспокоить вас дальше, если вы не хотите привести пример своего мышления.

— Бисваджит Банерджи

Давайте возьмем стохастическое дифференциальное уравнение:

X_{t} = f (t, X_{t}) d t + g (t, X_{t}) d W_{t}

$X_t = f(t,X_t)dt + g(t,X_t)dW_t$

Вот несколько различных аргументов, которые приводят к интуитивному пониманию того, почему математика, лежащая в основе методов более высокого порядка, необходима. Я буду обсуждать с точки зрения сильного порядка, что то же самое, что сказать "для данного броуновского движения $W(t)$ Насколько хорошо числовой интеграл решает эту траекторию? "

Регулярность уравнения

Прежде всего, ваш предложенный метод не учитывает тот факт, что $X_t$ не является непрерывно дифференцируемой На самом деле вы можете использовать результаты Росслера, чтобы показать, что расширение обычных методов RK, как вы предлагали, приведет к конвергентным методам, но они будут иметь только сильный порядок 0,5. Причина в том, что они были получены с использованием исчисления с $X_t$ быть дифференцируемым и иметь ряд Тейлора. Броуновское движение не дифференцируемо, а вместо этого имеет преемственность Холдера $\alpha < 0.5$ в виде

Однако, как и в теории возмущений, процессы, которые не являются достаточно регулярными, не расширяются в терминах ряда Тейлора, но с регулярностью Гольдера $\alpha$ они могут быть расширены с точки зрения серии Puiseux с точки зрения $\alpha$ т. е. для броуновского движения существует расширение понятия ряда Тейлора, которое расширяется в терминах $\frac{1}{2}$ производные. Как и в регулярном исчислении, первый член - это «линейный член», то есть изменение $dt$ в $\Delta t$ а также $dW_t$ в $N(0,dt)$ и вы понимаете что-то правильно Вот почему методы, включая такие вещи, как Эйлер-Маруяма, сходятся с сильным порядком 0,5: они получают первый член в ряду Тейлора правильно. Однако члены более высокого порядка должны иметь поправки на тот факт, что $X_t$ не является непрерывно дифференцируемой, поэтому обычные методы этого не делают.

Мгновенные корреляции и итерированные интегралы

Это быстрое эвристическое объяснение, но есть кое-что еще. Давайте посмотрим на несколько других деталей. Ряд Тейлора - это не просто разложение в терминах производных, но его также можно рассматривать как число членов высшего порядка для интегрирования. $X_t = X_0 + \Delta t f(t,X_t)$ интегрируется один раз. Но если вы добавите $dt^2$ термин, чтобы получить единицы правильно, вам нужно сделать двойные интегралы. $dt^2$ легко интегрировать дважды, но что $dW_t^i dW_t^j$ ? Это мгновенные корреляции между броуновскими движениями. Вы должны знать это, чтобы вычислить двойной интеграл. Если вы смотрите только на средние значения, вы можете отменить это. Но в любой траектории есть корреляции между различными броуновскими движениями системы дифференциальных уравнений. Предполагая, что между броуновскими движениями нет корреляций, это еще один способ охарактеризовать расширение Маруямы детерминированных методов, но чтобы получить следующий член в ряду (член 1.0), вы должны получить это право. Поправка Мильштейна как раз и добавляет эти условия корреляции. Когда шум диагональный, это эквивалентно пониманию того, что нет никакой корреляции, кроме как с самим собой, но корреляция с самим собой - это просто дисперсия, которая $dt$ и поэтому должно быть исправление $dW_t^2$ против $dt$ т.е. $dW^2 - dt$ , При наличии недиагонального шума эти двойные интегралы должны быть аппроксимированы так, чтобы учитывались мгновенные корреляции броуновских движений, и общим приближением здесь является приближение Викторссона, которое затем делает моделирование недиагонального шума настолько сложным (поскольку нет аналитического решения даже для двойных интегралов).

Средний эффект диффузии

Но это приводит нас к другому взгляду на проблему. Думая о расширении с точки зрения моментов, в некотором эвристическом смысле, член первого порядка, сильный порядок 1,0 или $\mathcal{O}(\Delta t)$ термин, должны получить средние движения правильно, верно? Вот вопрос: что является производным от $g$ во время? Самый простой ответ - определить производную обычным способом:

но это не совсем правильно при установке $g$ в контексте SDE. Если мы думаем о производной $g$ с точки зрения того, насколько это меняется $X_t$ в среднем он не всегда указывает в одном и том же направлении, поскольку он всегда умножается на этот случайный коэффициент $dW_t$ , Вопрос: каков средний размер этого $dW_t$ ? Диффузия имеет изменения в среднем по шкале $\sqrt{\Delta t}$ так что на самом деле аффект, который $g(t,X_t)$ имеет больше похоже

\frac{g (t + Δ t, X_{t + Δ t}) - g (t, X_{t})}{\sqrt{Δ t}}

$\frac{g(t+\Delta t,X_{t+\Delta t}) - g(t,X_t)}{\sqrt{\Delta t}}$

Вы можете более строго показать, что числовая производная должна быть такой с $X_{t + \Delta t} = X_t + g(t,X_t)\sqrt{\Delta t}$ как «предиктор вперед во времени».

Но интуитивно, это просто понимание среднего эффекта, который $g$ имеет на траектории $X_t$ : около $g(t,X_t)\sqrt{\Delta t}$ , В методе Рунге-Кутты, внутренний шаг во времени $c_i$ должен быть приближенным значением $X_{t + c_i\Delta t}$ Но даже из этого быстрого физического эвристического рассуждения о диффузии мы видим, что простое расширение метода Рунге-Кутты в среднем уже неверно: оно примерно $g(t,X_t)\sqrt{c_i \Delta t}$ это еще один способ объяснить, почему он имеет максимальный порядок 0,5 (удивительно, что методы все еще работают! Но вы можете объяснить это тем, что сумма этапов в методе RK должна быть равна 1, и поэтому эта ошибка несколько отменяется вне). Интересно, что этот эвристический аргумент идет довольно глубоко, поскольку стохастические методы Рунге-Кутты более высокого порядка, такие как те, что связаны с Росслером, имеют исправления, которые точно связаны с $g(t,X_t)\sqrt{\Delta t}$ ,

Вывод

Это 3 разных эвристических способа понять, почему более высокие порядки должны включать стохастическое исчисление. Более высокие порядки должны учитывать тот факт, что регулярность Гольдера равна 1/2, и, таким образом, в ряду Тейлора есть дополнительные члены, они должны учитывать мгновенные корреляции и, по крайней мере, учитывать средние эффекты диффузионного члена. , В противном случае они обречены не быть правильными $\mathcal{O}(\Delta t)$ и вместо этого только удовлетворяют «линейной аппроксимации» первого члена и получают $\mathcal{O}(\sqrt{\Delta t})$ ,

Конечно, в некоторых обстоятельствах есть способы найти подходящие обобщения, которые дают методы более высокого порядка, но я оставлю это как висящий поток, потому что это один из пунктов статьи, которую я скоро представлю. Надеюсь это поможет.

— Крис Ракауцкас
источник