В большинстве ситуаций больше данных обычно лучше . Переоснащение - это, по сути, изучение ложных корреляций, которые встречаются в ваших тренировочных данных, но не в реальном мире. Например, если вы рассматривали только моих коллег, вы можете научиться ассоциировать «по имени Мэтт» с «имеет бороду». Он действителен на 100% (даже ), но, очевидно, это не совсем так. Увеличение размера вашего набора данных (например, для всего здания или города) должно уменьшить эти ложные корреляции и повысить производительность вашего ученика.n = 4
Тем не менее, одна ситуация, когда больше данных не помогает - и может даже повредить - это если ваши дополнительные данные о тренировке зашумлены или не соответствуют тому, что вы пытаетесь предсказать. Однажды я провел эксперимент, в котором подключил различные языковые модели [*] к голосовой системе бронирования ресторанов. Я варьировал количество обучающих данных, а также их актуальность: с одной стороны, у меня была небольшая, тщательно отобранная коллекция таблиц бронирования людей, идеально подходящая для моего приложения. С другой стороны, у меня была модель, оцененная по огромной коллекции классической литературы, более точная языковая модель, но намного хуже подходящая для приложения. К моему удивлению, маленькая, но релевантная модель значительно превзошла большую, но менее актуальную модель.
Неожиданная ситуация, называемая
двойным спуском , также возникает, когда размер тренировочного набора близок к числу параметров модели. В этих случаях риск тестирования сначала уменьшается с увеличением размера тренировочного набора, временно
увеличивается, когда добавляется немного больше обучающих данных, и, наконец, снова начинает уменьшаться по мере роста тренировочного набора. Об этом явлении сообщалось 25 лет в литературе по нейронным сетям (см. Opper, 1995), но встречается и в современных сетях (
Advani and Saxe, 2017 ). Интересно, что это происходит даже для линейной регрессии, хотя и подходящей SGD (
Nakkiran, 2019). Это явление еще не полностью понято и представляет большой теоретический интерес: я, конечно, не использовал бы его в качестве причины, чтобы не собирать больше данных (хотя я мог бы возиться с размером обучающего набора, если n == p и производительность была неожиданно плохой ).
[*] Языковая модель - это просто вероятность увидеть данную последовательность слов, например, . Они жизненно важны для создания на полпути достойных распознавателей речи / персонажей.
п( шN= 'быстро', шn + 1= 'коричневый', шn + 2= 'лиса' )