Разделение данных временного ряда на наборы Train / Test / Validation


12

Каков наилучший способ разбить данные временного ряда на наборы поезд / тест / проверка, где набор проверки будет использоваться для настройки гиперпараметра?

У нас есть данные о ежедневных продажах за 3 года, и мы планируем использовать 2015-2016 гг. В качестве данных обучения, затем случайным образом выбрать 10 недель из данных 2017 года, которые будут использоваться в качестве набора для проверки, и еще 10 недель из данных 2017 года для тестовый набор. Затем мы сделаем шаг вперед по каждому из дней в наборе тестов и проверок.

Ответы:


8

Вы должны использовать разделение по времени, чтобы избежать предвзятого отношения. Поезд / проверка / тестирование в этом порядке по времени.

Тестовый набор должен быть самой последней частью данных. Вам необходимо смоделировать ситуацию в производственной среде, где после обучения модели вы оцениваете данные, поступающие после времени создания модели. Поэтому случайная выборка, которую вы используете для проверки и обучения, не очень хорошая идея.


5

Я думаю, что наиболее полный способ использования данных временных рядов для обучения / проверки / тестирования / прогнозирования заключается в следующем:

введите описание изображения здесь

Является ли картина самоочевидной? Если нет, пожалуйста, прокомментируйте, и я добавлю больше текста ...


3

Вместо того, чтобы создавать только один набор обучающих / проверочных наборов, вы можете создать больше таких наборов.

Первым обучающим набором могут быть, скажем, данные за 6 месяцев (первый семестр 2015 года), а набором валидации будут следующие три месяца (июль-август 2015 года). Второй обучающий набор будет представлять собой комбинацию первого обучающего набора и проверочного набора. В этом случае набор проверки будет установлен в следующие три месяца (сентябрь-октябрь 2015 г.). И так далее.

Это разновидность перекрестной проверки K-Fold, когда обучающие наборы представляют собой комбинацию предыдущего набора обучения и проверки.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.