Допустимо ли объединять временные ряды, чтобы они выглядели более значимыми?


10

Еще один вопрос о временных рядах от меня.

У меня есть набор данных, в котором ежедневно регистрируются случаи насилия в психиатрической больнице в течение трех лет. С помощью моего предыдущего вопроса я возился с этим и теперь немного счастливее.

У меня сейчас есть то, что ежедневные сериалы очень шумные. Он сильно колеблется, вверх и вниз, от 0 до 20 раз. Используя графики лёсса и пакет прогноза (который я очень рекомендую новичкам, таким как я), я просто получаю абсолютно ровную линию с огромными доверительными интервалами от прогноза.

Однако агрегирование еженедельных или ежемесячных данных имеет гораздо больше смысла. Они сметаются с самого начала серии, а затем снова увеличиваются в середине. Составление графиков Лесс и прогнозный пакет создают нечто более значимое.

Хотя это немного похоже на обман. Я просто предпочитаю агрегированные версии, потому что они выглядят хорошо, без реальной валидации?

Или лучше вычислить скользящее среднее и использовать его в качестве основы? Боюсь, я недостаточно хорошо понимаю теорию, стоящую за всем этим, чтобы быть уверенным в том, что приемлемо

Ответы:


8

Это полностью зависит от вашего временного ряда и того, какой эффект вы хотите обнаружить / доказать и т.д.

Здесь важно то, какие периоды у вас есть в ваших данных. Сделайте спектр ваших данных и посмотрите, какие частоты распространены в ваших данных.

В любом случае, вы не лжете, когда решаете отобразить агрегированные значения. Когда вы смотрите на эффекты, которые происходят в течение нескольких недель (например, больше насилия летом, когда стоит жаркая погода), это правильное решение.

Может быть, вы также можете взглянуть на преобразование Гильберта Хуанга. Это даст вам функции встроенного режима, которые очень удобны для визуального анализа.


12

Очень часто при прогнозировании объединяются данные для увеличения отношения сигнал / шум. Например, существует несколько работ о влиянии временной агрегации на точность прогноза в экономике. То, что вы, вероятно, видите в ежедневных данных, является слабым сигналом, который затопляется шумом, тогда как еженедельные и ежемесячные данные показывают более сильный сигнал, который является более видимым.

Хотите ли вы использовать временную агрегацию, полностью зависит от вашей цели. Если вам нужны прогнозы ежедневных инцидентов, то агрегация не принесет особой пользы. Если вы заинтересованы в изучении влияния нескольких ковариат на частоту заболеваемости, и все ваши данные доступны на ежедневной основе, то я, вероятно, буду использовать ежедневные данные, так как это даст больший размер выборки и, вероятно, позволит вам обнаружить эффекты легче.

Поскольку вы используете пакет прогноза, вероятно, вы заинтересованы в прогнозировании временных рядов. Так вам нужны ежедневные прогнозы, еженедельные прогнозы или ежемесячные прогнозы? Ответ определит, подходит ли вам агрегация.


1

Проблема (дилемма), с которой вы сталкиваетесь, заключается в выборе оптимального (или иным образом хорошего) интервала выборки для пересмотра ваших прогнозов. Для начала посмотрите текст ссылки на знаменитую книгу Брауна, которая также может считаться хорошей ссылкой. Все сводится к тому, чтобы «сбалансировать риск не замечать быстрых изменений с присущей изменчивостью данных и стоимостью частого пересмотра планов». Если вы не готовы ежедневно пересматривать свой прогноз (и решения, которые его мотивировали), вам не нужно использовать (самые шумные) ежедневные данные. Важный момент, который часто теряется в современной литературе по прогнозированию, заключается в том, что прогнозы необходимы только для оказания помощи в принятии решения (если только вы не знаете, как извлечь из них удовольствие).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.