Что заставило меня понять проблему с переоснащением, так это представить себе, какой будет самая подходящая модель. По сути, это была бы простая справочная таблица.
Вы сообщаете модели, какие атрибуты имеет каждая часть данных, и она просто запоминает ее и больше ничего с ней не делает. Если вы даете ему часть данных, которую он видел раньше, он ищет ее и просто извергает то, что вы сказали ранее. Если вы дадите ему данные, которых раньше не видели, результат будет непредсказуемым или случайным. Но смысл машинного обучения не в том, чтобы рассказать вам, что произошло, а в том, чтобы понять шаблоны и использовать эти шаблоны, чтобы предсказать, что происходит.
Так что подумайте о дереве решений. Если вы продолжаете увеличивать дерево решений все больше и больше, в конечном итоге вы получите дерево, в котором каждый конечный узел основан только на одной точке данных. Вы только что нашли закулисный способ создания справочной таблицы.
Чтобы обобщить ваши результаты, чтобы выяснить, что может произойти в будущем, вы должны создать модель, которая обобщает то, что происходит в вашем тренировочном наборе. Модели оверфита отлично справляются с описанием данных, которые у вас уже есть, но описательные модели не обязательно являются прогностическими моделями.
Теорема об отсутствии бесплатного обеда говорит, что ни одна модель не может превзойти любую другую модель на множестве всех возможных экземпляров. Если вы хотите предсказать, что будет дальше в последовательности чисел «2, 4, 16, 32», вы не сможете построить модель более точную, чем любую другую, если не сделаете предположение, что существует базовый шаблон. Подходящая модель на самом деле не оценивает шаблоны - она просто моделирует то, что, как она знает, возможно, и дает вам наблюдения. Вы получаете предсказательную силу, предполагая, что есть какая-то базовая функция и что, если вы можете определить, что это за функция, вы можете предсказать исход событий. Но если паттерна действительно нет, то вам не повезло, и все, на что вы можете надеяться, это справочная таблица, которая скажет вам, что вы знаете, возможно.