Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает).
Мысль № 1: разрыв между производительностью поезда и тестового набора не указывает на переоснащение
Во-первых, (также обсуждается здесь: как сравнения ошибок обучения и тестирования могут указывать на переоснащение? ) Идея о том, что разница между поездом и тестовым набором не может указывать на переобучение. Это согласуется с моим практическим опытом, например, в методах ансамблевого дерева, где даже после настройки гиперпараметров на основе перекрестной проверки разрыв между поездом и ошибкой теста может оставаться несколько большим. Но (независимо от типа модели), пока ошибка проверки не возвращается, у вас все хорошо. По крайней мере, это мышление.
Мысль № 2: Когда вы видите разрыв между поездом и тестовыми характеристиками
Тем не менее, есть совет, который вы видите из очень хороших источников, которые предполагают, что разрыв между поездом и ошибкой теста свидетельствует о переоснащении. Вот пример: доклад Эндрю Нга «Орехи и болты глубокого обучения» (фантастический доклад) https://www.youtube.com/watch?v=F1ka6a13S9I, где около отметки времени 48:00 он рисует блок-схему в нем говорится: «если ваша ошибка набора поездов мала, а ваша ошибка набора поездов велика, вы должны добавить регуляризацию, получить больше данных или изменить архитектуру модели» ... это все действия, которые вы можете предпринять для борьбы с перегрузкой.
Что приводит меня к ... : я что-то здесь упускаю? Это эмпирическое правило для конкретной модели (как правило, более простые модели имеют меньший разрыв между поездом и тестированием)? Или есть просто две разные школы мысли?