Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?

В книге «глубокое обучение Франсуа Шоле с Python» говорится:

В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому.

Центральное место в этом явлении занимает понятие утечки информации. Каждый раз, когда вы настраиваете гиперпараметр вашей модели на основе производительности модели на наборе проверки, некоторая информация о данных проверки просачивается в модель . Если вы сделаете это только один раз для одного параметра, тогда будет утечка очень небольшого количества информации , и ваш набор проверки останется надежным для оценки модели. Но если вы повторите это много раз - запустите один эксперимент, оцените набор проверки и в результате измените свою модель - тогда вы утечете в модель все более значительного объема информации о наборе проверки.

neural-networks cross-validation hyperparameter

— fabiomaia
источник

Кстати: это зависит не только от того, как часто вы делаете это, но и от случайной неопределенности вашей оценки производительности (целевой функционал) во время оптимизации.

— cbeleites недоволен SX

@cbeleites Извините, что это значит?

— Фабиомая

если бы результаты валидации, использованные для оптимизации, были безупречными (т. е. ни систематической, ни случайной ошибкой), оптимизация выбрала бы действительно оптимальную модель, у вас не было бы переобучения, а другая независимая идеальная проверка выбранной модели дала бы точно такой же результат. Оптимизация может даже допускать систематическую ошибку (смещение), если она не меняется в зависимости от факторов, которые вы меняете во время оптимизации. Теперь рассмотрим, что произойдет, если в оценке производительности будет случайная ошибка (неопределенность дисперсии): вы получите шум поверх истинного рабочего «ландшафта».

— cbeleites недоволен SX

Этот шум может заставить некоторую точку (настройки гиперпараметра) выглядеть лучше, чем на самом деле, поэтому эти настройки гиперпараметра могут быть выбраны случайно (и ошибочно). Вероятность того, что это произойдет, возрастает с: а) тем, сколько раз вы смотрите на такие значения производительности, и б) уровнем шума, который вы превышаете истинную производительность (по сравнению с истинным увеличением производительности). Дело не в том, почему повторное использование результатов проверки является утечкой данных, а в том, как происходит соответствующее переоснащение и насколько серьезна проблема, которую следует ожидать - таким образом, только комментарий.

— cbeleites недоволен SX

Информация просочилась, потому что вы используете данные проверки для выбора гиперпараметров. По сути, вы создаете сложную задачу оптимизации: минимизируйте потери по гиперпараметрам по сравнению с данными валидации, где эти гиперпараметры регуляризируют модель нейронной сети, параметры которой обучаются с использованием специального обучающего набора , $\phi$ $\theta$

Даже если параметры напрямую сообщаются данными обучения, гиперпараметры выбираются на основе данных проверки. Более того, поскольку гиперпараметры неявно влияют на , информация из данных проверки косвенно влияет на выбранную вами модель. $\theta$ $\phi$ $\phi$ $\theta$

— Sycorax говорит восстановить Монику
источник

Оглядываясь назад, это было довольно очевидно. Но что значит «Если вы сделаете это только один раз, для одного параметра, тогда очень мало битов информации будет просочиться»? Что имеется в виду и как это отличается от другого случая, когда «вы повторяете это много раз»?

— Фабиомая

2^{10}

$2^{10}$

Это имеет смысл. Формулировка в оригинальной книге была не самой лучшей. Спасибо!

— Фабиомая

Формулировка в книге отличная.

— Майкл М

Вам это может показаться «превосходным», потому что вы, вероятно, уже знаете, о чем говорит автор. Комментарий @Sycorax был намного более явным и полезным для меня.

— Фабиомая