У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно).
Проблема в том, что некоторые из моих моделей были созданы с помощью интерактивного процесса. Например, следуя совету в Стратегиях регрессионного моделирования Фрэнка Харрелла , в одной модели я использовал ограниченные кубические сплайны для обработки возможных нелинейных связей между объектами и ответом. Я выделил степени свободы каждого сплайна на основе комбинации знаний предметной области и одномерных мер силы ассоциации. Но степень свободы, которую я хочу разрешить моей модели, очевидно, зависит от размера набора данных, который резко меняется при тестировании на истории. Если я не хочу выбирать степени свободы отдельно для каждого случая, когда модель тестируется, каковы мои другие варианты?
В качестве другого примера, в настоящее время я работаю над обнаружением выбросов путем поиска точек с высоким кредитным плечом. Если бы я был счастлив сделать это вручную, я бы просто посмотрел на каждую точку данных с высоким левериджем, проверил, что данные были чистыми, и либо отфильтровал их, либо очистил вручную. Но это опирается на знания предметной области, поэтому я не знаю, как автоматизировать процесс.
Я был бы признателен за советы и решения как (а) общей проблемы автоматизации интерактивных частей процесса построения модели, так и (б) конкретных рекомендаций для этих двух случаев. Спасибо!