Вот ответ немного левого поля, который касается только части вашего вопроса, «лучших практик по объединению нескольких моделей» . По сути, это мой диплом с отличием, за исключением того, что я имею дело со сложными, сильно нелинейными моделями, которые демонстрируют хаос и шум - климатическими моделями. Это вряд ли будет широко применимо ко многим областям, но может быть полезно в экологии или эконометрике.
До недавнего времени в сообществе по моделированию климата модели в основном просто сбивались в невзвешенном среднем (обычно после коррекции смещения, включающей удаление среднего значения модели для части или всего периода выборки). Это в основном то, что МГЭИК сделала для 4-го оценочного отчета (4AR) и предыдущих отчетов.
Это более или менее пример правда плюс ошибка» школы сочетания ансамблей », где подразумевается, что молниеносно или явно предполагается, что ряд наблюдений (например, глобальная температура, локальные осадки и т. Д.) Истинен, и что если вы берете достаточно образцов (например, прогоны модели), шум в прогонах модели будет отменен (см. (1)).
В последнее время методы объединения моделей основаны на взвешивания производительности производительности. Поскольку климатические модели очень шумные и имеют так много переменных и параметров, единственными способами оценки эффективности (насколько я знаю) является выбор ковариации или выбор MSE между выходными данными модели и наблюдаемыми временными рядами. Модели могут быть объединены путем взвешивания среднего значения на основе этой меры. Есть хороший обзор этого в (2).
Одним из предположений, лежащих в основе этого метода объединения симуляций, является предположение, что все модели достаточно независимы - если бы некоторые были сильно зависимыми, они бы смещали среднее значение. Это предположение было достаточно справедливым для набора данных, используемого для 4AR ( CMIP3 , так как этот набор данных состоял из нескольких прогонов моделей из многих групп моделирования (с другой стороны, код является общим в сообществе моделирования, поэтому может сохраняться некоторая взаимозависимость). Интересный взгляд на это см. (3)). Набор данных для следующего отчета об оценке, CMIP5 , не имеет этого несколько случайного атрибута - некоторые команды моделирования будут отправлять несколько прогонов, в то время как некоторые будут представлять сотни. Ансамбли из разных групп могут создаваться по начальному условию петурбация, или изменения в физике модели и параметризации. Кроме того, этот супер-ансамбль не подвергается выборке каким-либо систематическим способом - он просто принимает данные, которые принимаются (в пределах разумного). Это известно в данной области как « ансамбль возможность". Есть большая вероятность, что использование невзвешенного среднего значения в таком ансамбле вызовет у вас серьезный уклон в сторону моделей с большим количеством прогонов (поскольку даже при сотнях прогонов, вероятно, будет гораздо меньшее число действительно независимых прогонов". ).
В данный момент у моего руководителя есть рецензируемый документ, описывающий процесс сочетания моделей, включающий производительность и взвешивание независимости . Имеется конспект тезисов конференции (4), я опубликую ссылку на статью, когда она будет опубликована (медленный процесс, не задерживайте дыхание). В основном, в этой статье описывается процесс, который включает в себя принятие ковариации ошибок модели (модель-obs) и утяжеление моделей, которые имеют высокую ковариацию со всеми другими моделями (т.е. модели с сильно зависимыми ошибками). Модель ошибки дисперсии также вычисляется и используется в качестве компонента взвешивания производительности.
Стоит также отметить, что на моделирование климата явно оказывают огромное влияние капризы численного моделирования в целом. Есть такая вещь, как «тест смеха» - если вы закончите с прогоном модели, который подразумевает, что глобальные средние температуры будут к 2050 году + 20 ° C, вы просто выбросите его, потому что он явно не имеет физического значения. Очевидно, что этот вид теста довольно субъективен. Я этого еще не требовал, но ожидаю в ближайшее время.
Это мое понимание комбинации модели состояния в моей области на данный момент. Очевидно, я все еще учусь, поэтому, если я найду что-то особенное, я вернусь и обновлю этот ответ.
(1) Tebaldi, C. & Knutti, R., 2007. Использование многомодельного ансамбля в вероятностных климатических проекциях. Философские труды Королевского общества A: Математические, физические и инженерные науки, 365 (1857), с. 2053–2075.
(2) Кнутти Р. и др., 2010 г. Совещание экспертов МГЭИК по оценке и комбинированию многомодельных климатических прогнозов.
(3) Массон Д. и Кнутти Р., 2011. Генеалогия модели климата. Geophys. Местожительство Lett, 38 (8), p.L08703.
(4) Abramowitz, G. & Bishop, C., 2010. Определение и взвешивание для модельной зависимости в ансамблевом прогнозировании. В AGU Осенняя встреча тезисов. п. 07.