Я согласен с @ ryan-zotti, что достаточно жесткий поиск не обязательно приводит к переоснащению - или, по крайней мере, не до такой степени, чтобы мы называли это перегрузкой. Позвольте мне попытаться высказать свою точку зрения на это:
Коробка однажды сказала:
Помните, что все модели не правы; практический вопрос в том, насколько неправильными они должны быть, чтобы не быть полезными.
(Чтобы быть идеальным, потребовались бы все данные, что, в свою очередь, исключило бы необходимость модели в первую очередь).
Неправильные модели также включают переоснащение1, Но мы не будем об этом заботиться или даже замечать. Вопрос в том, какое количество моделей, отклоняющихся от реальности, мы можем а) измерить вообще и б) найти приемлемым, чтобы не называть это чрезмерным или недостаточным соответствием - потому что оба всегда будут применяться немного ко всей модели, которую мы когда-либо построим. Если наши модели , в конце концов удовлетворяют нашим требованиям , но , например , сверх- / underfit только минимальный, или сверх- / underfit на части (возможно) данные , которые не рассматриваются в нашем случае применения мы принимаем его - это не обязательно о предотвращении всех за кадром - / underfitting.
Это сводится к правильной настройке для измерения / обнаружения ошибки модели, чтобы решить, является ли это тем, что мы хотели бы иметь. Поэтому мы можем сделать процесс максимально устойчивым, пытаясь получить данные с минимальным шумом и репрезентативными + достаточными выборками, чтобы моделировать, оценивать и выбирать как можно лучше и делать все это разумным способом (например, немногие образцы, много функций→менее сложная модель; выберите наименее сложную модель с приемлемой производительностью и т. д.).
Потому что: в конце концов, у нас всегда будет ошибка / переоценка / недооценка модели - это возможность обнаружения / измерения этой ошибки в рамках нашего интереса, чтобы сделать разумный выбор, который имеет значение.
1а) каждая модель имеет проблему смещения и дисперсии одновременно (мы обычно пытаемся найти правильный компромисс для удовлетворения наших потребностей). Модели, удовлетворяющие нашим требованиям, обязательно будут иметь отклонения и отклонения. б) Рассмотреть шумные данные и нерепрезентативные выборки в качестве причин для переоснащения. Каждая модель будет обязательно моделировать шум, а также моделировать отношение, для которого части информации отсутствуют, поэтому о том, какие ошибочные предположения обязательно будут сделаны.