У меня есть исторические данные о продажах из пекарни (ежедневно, более 3 лет). Теперь я хочу построить модель для прогнозирования будущих продаж (используя такие функции, как день недели, переменные погоды и т. Д.).
Как я должен разделить набор данных для подбора и оценки моделей?
- Должен ли он быть хронологическим составом / валидацией / тестовым разделением?
- Буду ли я тогда выполнять настройку гиперпараметра с помощью набора поездов и проверки?
- Является ли (вложенная) перекрестная проверка плохой стратегией для проблемы временных рядов?
РЕДАКТИРОВАТЬ
Вот некоторые ссылки, с которыми я столкнулся после перехода по URL, предложенному @ ene100:
- Роб Хиндман, описывающий «происхождение скользящего прогнозирования» в теории и на практике (с помощью R-кода)
- другие термины для начала скользящего прогнозирования - это «оптимизация шага вперед» ( здесь или здесь ), «скользящий горизонт» или «движущийся источник»
- Похоже, что эти методы не будут интегрированы в scikit-learn в ближайшем будущем, потому что «потребность в этих методах и их неясность неясны» (указано здесь ).
И это еще одно предложение для перекрестной проверки временных рядов.