Скажем, у меня есть два метода обучения для задачи классификации , и , и что я оцениваю их эффективность обобщения с помощью чего-то вроде повторной перекрестной проверки или начальной загрузки. Из этого процесса я получаю распределение оценок и для каждого метода по всем этим повторениям (например, распределение значений ROC AUC для каждой модели).B P A P B
Глядя на эти распределения, это может быть но (то есть ожидаемая производительность обобщения выше, чем , но в этой оценке больше неопределенности).σ A ≥ σ B A B
Я думаю, что это называется дилеммой отклонения в регрессии.
Какие математические методы я могу использовать для сравнения и и в конечном итоге принять обоснованное решение о том, какую модель использовать?P B
Примечание. Для простоты я имею в виду два метода и , но мне интересны методы, которые можно использовать для сравнения распределения баллов по ~ 1000 методам обучения (например, по сеточному поиску) и, в конечном итоге, для окончательное решение о том, какую модель использовать.B