Заказ временных рядов для машинного обучения

14

Прочитав один из «Советов по исследованию» Р. Дж. Хиндмана о перекрестной проверке и временных рядах, я вернулся к своему старому вопросу, который я постараюсь сформулировать здесь. Идея состоит в том, что в задачах классификации или регрессии порядок данных не важен, и, следовательно, можно использовать перекрестную проверку в k- кратном порядке. С другой стороны, во временных рядах упорядочение данных, очевидно, имеет большое значение.

Однако при использовании модели машинного обучения для прогнозирования временных рядов общей стратегией является преобразование ряда в набор «векторов ввода-вывода», которые в течение времени имеют форма . $\{y_1, ..., y_T\}$ $t$ $(y_{t-n+1}, ..., y_{t-1}, y_{t}; y_{t+1})$

Теперь, когда это изменение формы выполнено, можем ли мы считать, что результирующий набор «векторов ввода-вывода» не нужно упорядочивать? Если мы используем, например, прямую нейронную сеть с n входами для «изучения» этих данных, мы получим одинаковые результаты независимо от порядка, в котором мы показываем векторы для модели. И поэтому, можем ли мы использовать перекрестную проверку в k-кратном порядке стандартным способом, без необходимости каждый раз заново подгонять модель?

time-series machine-learning cross-validation

— JLA
источник

2

Ответ на этот вопрос заключается в том, что это будет работать нормально, если ваш порядок модели указан правильно, так как тогда ошибки вашей модели будут независимыми.

Эта статья здесь показывает , что если модель имеет бедный кросс-валидация недооценивает , насколько плохой она на самом деле. Во всех других случаях перекрестная проверка будет работать хорошо, в частности, лучше, чем оценка вне выборки, обычно используемая в контексте временных рядов.

— Кристоф Бергмейр
источник

6

Интересный вопрос!

Подход, который вы описываете, безусловно, очень широко используется людьми, использующими стандартные методы ML, которым требуются векторы признаков фиксированной длины для анализа данных временных рядов.

В публикации, на которую вы ссылаетесь, Хиндман отмечает, что существуют корреляции между измененными векторами данных (выборками). Это может быть проблематично, так как k-CV (или другие методы оценки, которые случайным образом разделяют данные на обучающие и тестовые наборы) предполагает, что все выборки независимы. Тем не менее, я не думаю, что эта проблема актуальна для случая стандартных методов ML, которые обрабатывают атрибуты отдельно.

$n=3$

\begin{aligned} A & : (Y_{1}, Y_{2}, Y_{3}; Y_{4}) \\ В & : (Y_{2}, Y_{3}, Y_{4}; Y_{5}) \\ С & : (Y_{3}, Y_{4}, Y_{5}; Y_{6}) \end{aligned}

$\begin{align} A&: (y_1, y_2, y_3; y_4) \\ B&: (y_2, y_3, y_4; y_5) \\ C&: (y_3, y_4, y_5; y_6) \\ \end{align}$

Очевидно, что A и B имеют такие термины, как $y_2$ в общем Но для A это значение его второго атрибута, тогда как для B это значение его первого атрибута.

— Ирландский буфер
источник

1

Я согласен с вами, что некоторые алгоритмы ML могут быть невосприимчивы к проблеме высококоррелированных выборок, поскольку они обрабатывают атрибуты совершенно отдельно. Но эти алгоритмы также не очень хороши для работы временных рядов. Алгоритмы ML, перспективные для временного ряда, должны быть в состоянии заметить, что атрибут # 1 и атрибут # 2 на самом деле похожи друг на друга, в противном случае они будут плохими при прогнозировании (прогноз должен быть примерно одинаковым, когда вы сдвигаете время на 1). Эти алгоритмы также пострадают от проблемы, упомянутой Хиндманом.

— максимум