Train vs Test Error Gap и его связь с переоснащением: согласование противоречивых советов

Там, кажется, есть противоречивый совет о том, как обрабатывать сравнение поезда с ошибкой теста, особенно когда есть разрыв между ними. Кажется, есть две школы мысли, которые кажутся мне противоречивыми. Я ищу, чтобы понять, как совместить два (или понять, что мне здесь не хватает).

Мысль № 1: разрыв между производительностью поезда и тестового набора не указывает на переоснащение

Во-первых, (также обсуждается здесь: как сравнения ошибок обучения и тестирования могут указывать на переоснащение? ) Идея о том, что разница между поездом и тестовым набором не может указывать на переобучение. Это согласуется с моим практическим опытом, например, в методах ансамблевого дерева, где даже после настройки гиперпараметров на основе перекрестной проверки разрыв между поездом и ошибкой теста может оставаться несколько большим. Но (независимо от типа модели), пока ошибка проверки не возвращается, у вас все хорошо. По крайней мере, это мышление.

Мысль № 2: Когда вы видите разрыв между поездом и тестовыми характеристиками

Тем не менее, есть совет, который вы видите из очень хороших источников, которые предполагают, что разрыв между поездом и ошибкой теста свидетельствует о переоснащении. Вот пример: доклад Эндрю Нга «Орехи и болты глубокого обучения» (фантастический доклад) https://www.youtube.com/watch?v=F1ka6a13S9I, где около отметки времени 48:00 он рисует блок-схему в нем говорится: «если ваша ошибка набора поездов мала, а ваша ошибка набора поездов велика, вы должны добавить регуляризацию, получить больше данных или изменить архитектуру модели» ... это все действия, которые вы можете предпринять для борьбы с перегрузкой.

Что приводит меня к ... : я что-то здесь упускаю? Это эмпирическое правило для конкретной модели (как правило, более простые модели имеют меньший разрыв между поездом и тестированием)? Или есть просто две разные школы мысли?

cross-validation overfitting

— ednaMode
источник

Я не думаю, что это противоречивый совет. Что нас действительно интересует, так это хорошая производительность вне выборки, а не сокращение разрыва между тренировками и производительностью тестовых наборов. Если производительность набора тестов отражает производительность вне выборки (т. Е. Набор тестов достаточно большой, незагрязненный и является репрезентативной выборкой данных, к которым будет применяться наша модель), то до тех пор, пока мы получим хорошую производительность для Тестовый набор мы не переоснащаем, независимо от разрыва.

Однако, часто, если есть большой разрыв, это может указывать на то, что мы могли бы получить лучшую производительность тестового набора с большей регуляризацией / введением большего смещения в модель. Но это не означает, что меньший разрыв означает лучшую модель; просто если у нас небольшой разрыв или нет промежутка между тренировкой и производительностью тестового набора, мы знаем, что мы точно не переобучаемся, поэтому добавление регуляризации / внесение большего смещения в модель не поможет.

— rinspy
источник

Интересный момент. Подводя итог, «нет разрыва между поездом и испытанием» означает, безусловно, никакого переоснащения, но «некоторый разрыв между поездом и испытанием» может означать или не означать переобучение. Если мы пойдем по этой логике, блок-схема в выступлении Эндрю Нга кажется немного вводящей в заблуждение: он не такой громкий, как предполагает слайд, т.е. если у вас есть пробел, вы можете попробовать упорядочить или получить больше данных, но это может не помочь. Вы бы согласились?

— ednaMode

Исходя из моего опыта, да, я бы согласился.

— Ринспи

«Подводить итог отсутствию разрыва между поездом и испытанием означает, что определенно нет необходимости в переоснащении», возможно, не обязательно. Когда у вас есть бесконечное количество данных, вы получите нулевой разрыв между поездом и тестом, даже если модель перегружена. Поэтому я думаю, что для того, чтобы это утверждение было верным, вам нужно еще несколько предположений.

— LKS

@LKS Я не уверен, что ты имеешь в виду под переоснащением Производительность вне выборки всегда будет меньше или равна производительности в выборке, при условии, что распределение данных остается постоянным. Так что нулевой разрыв - наш лучший вариант развития событий. Как может быть переоснащение с нулевым разрывом?

— Ринспи

@rinspy, если вы определяете переоснащение как числовой разрыв между данными обучения и тестирования, тогда ваше утверждение верно. Но я бы хотел больше рассуждать о том, что делает модель. Например, у нас есть полиномиальная функция степени 3, и результат будет включать небольшой гауссов шум. Если у нас есть конечные выборки и мы используем полином 5-й степени для подгонки, то между показателями в выборке (прогнозировании) будет большой результат. Но если мы можем нарисовать почти бесконечные сэмплы, то модель, которая запоминает чисто, будет иметь нулевую ошибку ввода-вывода.

— LKS