Мой предложенный подход охватывает модели, которые являются гораздо более общими, чем ARIMA, поскольку они включают в себя потенциал для сезонных манекенов, которые могут изменяться со временем, несколько уровней, множество трендов, параметры, которые могут изменяться со временем, и даже отклонения ошибок, которые могут изменяться со временем. Это семейство более точно называется моделями ARMAX, но для полной прозрачности исключается (редкий) вариант, имеющий мультипликативную структуру.
Вы просили советы, и я считаю, что это может быть хорошим для начала.
Я бы посоветовал вам написать код для отслеживания / эмуляции этой потоковой диаграммы / рабочего процесса. «Лучшая модель» может быть найдена путем оценки заданного вами критерия ... это может быть MSE / AIC для подобранных данных или MAPE / SMAPE для скрытых данных или любой другой критерий по вашему выбору.
Помните, что детализация каждого из этих этапов может быть довольно простой, если вы не знаете о некоторых конкретных требованиях / целях / ограничениях анализа временных рядов, НО это может быть (должно быть!) Более сложным, если у вас есть более глубокое понимание / изучение / оценка сложностей / возможностей, присутствующих в тщательном анализе временных рядов.
Меня попросили дать дальнейшие указания относительно того, как следует автоматизировать моделирование временных рядов (или моделирование в целом). Https://stats.stackexchange.com/search?q=peeling+an+onion содержит некоторые из моих рекомендаций по «Пилинг лука» и связанные с ним задачи.
AUTOBOX фактически детализирует и показывает промежуточные шаги, поскольку он формирует полезную модель и может быть полезным учителем в этом отношении. Вся научная идея состоит в том, чтобы «добавить то, что кажется необходимым» и «удалить то, что кажется менее чем полезным». Это итеративный процесс, предложенный Боксом и Бэконом в более ранние времена.
Модели должны быть достаточно сложными (достаточно причудливыми), но не слишком сложными (причудливыми). Предположение, что простые методы работают со сложными проблемами, не согласуется с научным методом, следующим за Роджером Бэконом и множеством последователей Бэкона. Как однажды сказал Роджер Бэкон, и я часто перефразировал: «Наука - это поиск повторяющихся паттернов. Обнаружение аномалий означает выявление значений, которые не повторяют повторяющиеся закономерности. Для тех, кто знает пути Природы, легче заметить ее отклонения, и, с другой стороны, тот, кто знает ее отклонения, будет более точно описывать ее пути. Каждый изучает правила, наблюдая, когда текущие правила терпят неудачу. В духе Бэкона, определяя, когда идентифицированная в настоящее время «лучшая модель / теория» неадекватна, можно затем перейти к «лучшему представлению».
По моим словам, «Тьюки предложил Исследовательский анализ данных (EDA), который предложил схемы уточнения модели на основе доказанного недостатка модели, предложенного данными». Это сердце AUTOBOX и науки. EDA предназначена для того, чтобы увидеть, что данные могут сказать нам, помимо формальной задачи моделирования или проверки гипотез.
Лакмусовый тест программы автоматического моделирования довольно прост. Разделяет ли он сигнал и шум без чрезмерной подгонки? Эмпирические данные свидетельствуют о том, что это можно и было сделано. Точность прогнозирования часто вводит в заблуждение, потому что будущее не несет ответственности за прошлое и в зависимости от того, какое происхождение вы выбираете, результаты могут и действительно различаться.