Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики.
У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая машиной), и я собираюсь сделать прогноз на 10 минут впереди на переменных производительности.
У меня есть данные за 12 месяцев, поэтому я разделил их на 11 месяцев для тренировочного набора и последнего месяца для тестирования.
До сих пор я создал 10 новых функций, которые представляют собой запаздывающие значения на 1-10 минут для каждой из переменных производительности, и использовал их, а также входные данные для прогнозирования. Производительность на тестовом наборе была довольно хорошей (система вполне предсказуема), но я беспокоюсь, что мне что-то не хватает в моем подходе.
Например, в этой статье авторы заявляют о своем подходе к тестированию прогнозирующей способности их модели случайного леса:
Симуляция продолжается путем итеративного добавления новой недели данных, обучения новой модели на основе обновленных данных и прогнозирования количества вспышек на следующую неделю.
Чем это отличается от использования «более поздних» данных во временных рядах в качестве тестирования? Должен ли я проверять свою модель РЧ-регрессии с этим подходом, а также с набором данных тестирования? Кроме того, действительно ли этот тип «авторегрессионного» подхода к регрессии случайных лесов действителен для временных рядов, и нужно ли мне даже создавать такое много запаздывающих переменных, если я заинтересован в прогнозе на 10 минут в будущем?