Как влияет увеличение данных обучения на общую точность системы?


16

Может ли кто-то резюмировать для меня возможные примеры, в каких ситуациях увеличение обучающих данных улучшает общую систему? Когда мы обнаружим, что добавление большего количества данных для обучения может привести к переопределению данных и не дать точных данных теста?

Это очень неспецифичный вопрос, но если вы хотите ответить на него конкретно для конкретной ситуации, сделайте это.


просто интересно - это о том, что 50-50 разбить на поезд / тест лучше, чем, скажем, 75-25?
вероятностная

Ответы:


22

В большинстве ситуаций больше данных обычно лучше . Переоснащение - это, по сути, изучение ложных корреляций, которые встречаются в ваших тренировочных данных, но не в реальном мире. Например, если вы рассматривали только моих коллег, вы можете научиться ассоциировать «по имени Мэтт» с «имеет бороду». Он действителен на 100% (даже ), но, очевидно, это не совсем так. Увеличение размера вашего набора данных (например, для всего здания или города) должно уменьшить эти ложные корреляции и повысить производительность вашего ученика.Nзнак равно4

Тем не менее, одна ситуация, когда больше данных не помогает - и может даже повредить - это если ваши дополнительные данные о тренировке зашумлены или не соответствуют тому, что вы пытаетесь предсказать. Однажды я провел эксперимент, в котором подключил различные языковые модели [*] к голосовой системе бронирования ресторанов. Я варьировал количество обучающих данных, а также их актуальность: с одной стороны, у меня была небольшая, тщательно отобранная коллекция таблиц бронирования людей, идеально подходящая для моего приложения. С другой стороны, у меня была модель, оцененная по огромной коллекции классической литературы, более точная языковая модель, но намного хуже подходящая для приложения. К моему удивлению, маленькая, но релевантная модель значительно превзошла большую, но менее актуальную модель.


Неожиданная ситуация, называемая двойным спуском , также возникает, когда размер тренировочного набора близок к числу параметров модели. В этих случаях риск тестирования сначала уменьшается с увеличением размера тренировочного набора, временно увеличивается, когда добавляется немного больше обучающих данных, и, наконец, снова начинает уменьшаться по мере роста тренировочного набора. Об этом явлении сообщалось 25 лет в литературе по нейронным сетям (см. Opper, 1995), но встречается и в современных сетях ( Advani and Saxe, 2017 ). Интересно, что это происходит даже для линейной регрессии, хотя и подходящей SGD ( Nakkiran, 2019). Это явление еще не полностью понято и представляет большой теоретический интерес: я, конечно, не использовал бы его в качестве причины, чтобы не собирать больше данных (хотя я мог бы возиться с размером обучающего набора, если n == p и производительность была неожиданно плохой ).


[*] Языковая модель - это просто вероятность увидеть данную последовательность слов, например, . Они жизненно важны для создания на полпути достойных распознавателей речи / персонажей.п(весNзнак равно'быстро', весN+1знак равно«Коричневый», весN+2знак равно'лиса')



12

Одно замечание: добавляя больше данных (строк или примеров, а не столбцов или элементов), ваши шансы переоснащения уменьшаются, а не увеличиваются.

Сводка двух параграфов выглядит так:

  • Добавляя больше примеров, добавляй разнообразие. Это уменьшает ошибку обобщения, потому что ваша модель становится более общей благодаря обучению большему количеству примеров.
  • Добавление дополнительных входных функций или столбцов (к фиксированному числу примеров) может увеличить переоснащение, потому что больше функций может быть либо неактуальным, либо избыточным, и есть больше возможностей усложнить модель, чтобы соответствовать имеющимся примерам.

Есть несколько упрощенных критериев для сравнения качества моделей. Посмотрите, например, на AIC или BIC .

Они оба показывают, что добавление большего количества данных всегда делает модели лучше, а сложность параметров выше оптимальной снижает качество модели.


1

Увеличение данных тренировки всегда добавляет информацию и должно улучшить подгонку. Трудность возникает тогда, когда вы оцениваете производительность классификатора только по тренировочным данным, которые использовались для подбора. Это приводит к оптимистически смещенным оценкам и является причиной, по которой вместо этого используются перекрестная валидация или самозагрузка.


1

В идеале, если у вас будет больше обучающих примеров, у вас будет меньше ошибок при тестировании (дисперсия модели уменьшается, что означает, что мы меньше переоснащаемся), но теоретически, больше данных не всегда означает, что у вас будет более точная модель, так как модели с большим смещением не получат больше примеров обучения .

Смотрите здесь: в машинном обучении, что лучше: больше данных или лучшие алгоритмы

Высокая дисперсия - модель, которая хорошо отображает тренировочный набор, но с риском перенастройки на зашумленные или непредставительные тренировочные данные.

Высокий уклон - более простая модель, которая, как правило, не подходит, но может не соответствовать данным обучения, не отражая важные закономерности.


-1

Анализ спектра поможет в анализе разнообразия выборки, фактически ложная информация будет получена при моделировании, если не будут добавлены «реальные выборки», которые обычно называют переборкой. Обычно, если предоставленная информация по образцу меньше, предлагается предоставить более реальную выборку, чтобы гарантировать, что полезная информация может быть использована в тестировании. Удачи!


3
Трудно понять смысл этого ответа. Возможно, это был машинный перевод с какого-то другого языка? Был бы какой-нибудь способ, которым вы могли бы просмотреть и отредактировать это так, чтобы оно передавало идеи, которыми вы хотите поделиться с нами?
whuber

Я не понимаю, каков ваш ответ.
user162580

3
Похоже, у нас проблема с языком: выложенные вами слова не имеют смысла в английском. Можете ли вы изменить их, чтобы они имели смысл?
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.