При построении регрессионной модели с использованием отдельных наборов моделирования / валидации уместно ли «рециркулировать» данные валидации?


13

Предположим, у меня есть 80/20 раскол между наблюдениями моделирования / валидации. Я приспособил модель к набору данных моделирования, и меня устраивает ошибка, которую я вижу в наборе данных проверки. Прежде чем развернуть мою модель для оценки будущих наблюдений, уместно ли объединить валидацию с данными моделирования, чтобы получить обновленные оценки параметров на 100% данных? Я слышал две точки зрения на это:

  1. Проверка, которую я выполнил, была проверкой структуры модели, то есть набора предикторов и преобразований, которые я применил. Нет смысла оставлять 20% моих данных в таблице, когда я могу использовать это для обновления своих оценок.

  2. Проверка, которую я выполнил, была частично проверкой оценок параметров, которые я вычислил на моем наборе данных моделирования. Если я обновлю подбор модели, я изменю оценки, и у меня больше не будет объективного способа проверить производительность обновленной модели.

Я всегда следовал аргументу № 1, но в последнее время я слышал, как несколько человек спорили # 2. Я хотел посмотреть, что другие думают об этом. Вы видели какие-нибудь хорошие обсуждения в литературе или где-либо еще по этой теме?

Ответы:


6

Вариант 1 является правильным. Вы можете добавить набор данных проверки для обновления параметров вашей модели.

Это ответ. Теперь давайте обсудим это. То, что вы сделали, было вашим вариантом 1. выше, яснее, если вы делали перекрестную проверку начальной загрузки k-кратным способом (и вы должны были это сделать - это не ясно из вашего вопроса).

При пятикратной перекрестной проверке вы делите имеющиеся у вас данные на 5 случайных наборов одинакового размера. Давайте назовем их A, B, C, D и E. Затем вы изучите параметры вашей модели (самой модели) в 4 наборах, скажем, A, B, C и D, и протестируете ее или подтвердите в пятая модель Э. (это вы сделали). Но затем вы выбираете другой набор в качестве теста / проверки (скажем, D) и учитесь, используя другие 4 (A, B, C и E). Проверьте это на D, повторите.

Ошибка вашей прогностической модели - это средняя ошибка 5 тестов, и вы немного понимаете, как прогностическая ошибка зависит от комплектов обучения и тестирования. В лучшем случае все 5 показателей ошибки похожи, и вы можете быть уверены, что ваша модель будет работать на этом уровне в будущем.

А какая модель ?? Для каждого набора обучающих наборов у вас будет свой параметр для модели. При обучении с A, B, C, D генерируется набор параметров P1, при обучении с A, B, C, E набор параметров P2 до P5. Ни одна из них не ваша модель.

То, что вы тестировали, - это ожидаемая ошибка процедуры построения моделей , процедура, которой вы следовали, когда набор обучения был A, B, C, D и когда это был A, B, C, E и так далее. Это процедура, которая генерирует модель с этой ожидаемой ошибкой.

Так, какова окончательная модель? Это применение процедуры ко всем имеющимся у вас данным (A, B, C, D и E). Новая модель с набором параметров P0, которую вы никогда не генерировали раньше, у вас нет данных для ее проверки (поскольку вы «использовали» все данные при определении параметров P0), и все же у вас есть разумные ожидания, что она будет работать в будущем. данные, как и другие модели (P1, P2 ...), построенные с использованием той же процедуры.

Что если вы не выполняли перекрестную проверку или начальную загрузку (начальную загрузку объяснить сложнее - я оставлю это вне обсуждения)? Что делать, если вы выполнили только одно разделение обучения / проверки и одну меру ошибки. Тогда аргумент 2. может быть несколько верным, но у вас есть большая проблема - у вас есть только один показатель ошибки модели, и вы не знаете, насколько эта ошибка зависит от данных, использованных для ее проверки. Возможно, к счастью, ваш 20-процентный набор проверки был особенно легко предсказать. Не сделав многократных измерений ошибки, будет очень рискованно предполагать, что ожидаемая частота ошибок вашей прогнозной модели останется неизменной для будущих данных.

Какой «больший риск»? Предполагать, что эта ошибка останется в основном той же самой для будущих данных, или предположить, что добавление дополнительных данных для изучения вашей модели каким-то образом «испортит» модель и увеличит частоту ее ошибок в будущем? Я не знаю, как на это ответить, но я бы с подозрением отнесся к моделям, которые ухудшаются с большим количеством данных ....

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.