Переоснащение и подгонка


20

Я провел некоторое исследование о переоснащении и подборе снаряжения, и я понял, что именно они есть, но я не могу найти причины.

Каковы основные причины переоснащения и недостаточного оснащения?

Почему мы сталкиваемся с этими двумя проблемами при обучении модели?


Ответы:


30

Я постараюсь ответить самым простым способом. Каждая из этих проблем имеет свое основное происхождение:

Переоснащение: данные зашумлены, это означает, что есть некоторые отклонения от реальности (из-за ошибок измерения, случайно выбранных факторов, ненаблюдаемых переменных и корреляций мусора), из-за которых нам труднее увидеть их истинную связь с нашими объясняющими факторами. Кроме того, это обычно не завершено (у нас нет примеров всего).

В качестве примера, скажем, я пытаюсь классифицировать мальчиков и девочек по их росту, просто потому, что это единственная информация, которая у меня есть о них. Все мы знаем, что хотя мальчики в среднем выше девочек, существует огромный регион совпадения, что делает невозможным их полное разделение только с помощью этой информации. В зависимости от плотности данных, достаточно сложная модель может быть в состоянии достичь лучшего показателя успеха при выполнении этой задачи, чем это теоретически возможно при обучениинабор данных, потому что он может рисовать границы, которые позволяют некоторым точкам стоять в одиночестве. Итак, если у нас есть только человек ростом 2,04 метра и она женщина, то модель может нарисовать маленький круг вокруг этой области, что означает, что случайным человеком ростом 2,04 метра, скорее всего, будет женщина.

Основной причиной всего этого является слишком большое доверие к данным обучения (и в примере модель говорит, что, поскольку нет мужчины с ростом 2,04, это возможно только для женщин).

Недостаточное оснащение является противоположной проблемой, в которой модель не может распознать реальные сложности в наших данных (то есть неслучайные изменения в наших данных). Модель предполагает, что шум больше, чем есть на самом деле, и поэтому использует слишком упрощенную форму. Итак, если в наборе данных по тем или иным причинам гораздо больше девочек, чем мальчиков, то модель может просто классифицировать их всех как девочек.

В этом случае модель недостаточно доверяла данным, и она просто предполагала, что все отклонения являются шумом (и в примере модель предполагает, что мальчиков просто не существует).

Суть в том, что мы сталкиваемся с этими проблемами, потому что:

  • У нас нет полной информации.
  • Мы не знаем, насколько шумны данные (мы не знаем, насколько мы должны доверять им).
  • Мы заранее не знаем основную функцию, которая генерировала наши данные, и, следовательно, оптимальную сложность модели.

2
добро пожаловать в резюме. хороший ответ, который заставляет меня хотеть del мой ответ ...
Haitao Du

1
Я думаю, что часть, касающаяся «рисования границ» и «кругов», немного сбивает с толку ...
Easymode44

Я бы только утверждал, что пример прогнозирования роста между мужчинами и женщинами подпадает под недостаточную, а не чрезмерную.
Digio

6

Перенастройка - это когда модель очень хорошо оценивает переменную, которую вы моделируете, на исходных данных, но она плохо оценивает новый набор данных (удержание, перекрестная проверка, прогнозирование и т. Д.). У вас слишком много переменных или оценок в вашей модели (фиктивные переменные и т. Д.), И это приводит к тому, что ваша модель становится слишком чувствительной к шуму в ваших исходных данных. В результате наложения на шум исходных данных модель плохо прогнозирует.

Недооценка - это когда модель не оценивает переменную хорошо либо в исходных данных, либо в новых данных. В вашей модели отсутствуют некоторые переменные, которые необходимы для лучшей оценки и прогнозирования поведения вашей зависимой переменной.

Балансировка между переоснащением и подтяжкой является сложной задачей, а иногда и без четкой финишной черты. При моделировании эконометрических временных рядов эта проблема решается довольно хорошо с помощью моделей регуляризации (LASSO, Ridge Regression, Elastic-Net), которые специально предназначены для сокращения переобучения путем соответствующего уменьшения числа переменных в вашей модели, снижения чувствительности коэффициентов к ваши данные, или комбинация обоих.


5

Возможно, во время вашего исследования вы столкнулись со следующим уравнением:

Error = IrreducibleError + Bias² + Variance,

Почему мы сталкиваемся с этими двумя проблемами при обучении модели?

Сама проблема обучения - это в основном компромисс между предвзятостью и дисперсией .

Каковы основные причины переоснащения и недостаточного оснащения?

Коротко: шум.

Long: неустранимая ошибка : ошибки измерения / колебания в данных, а также часть целевой функции, которая не может быть представлена ​​моделью. Повторное измерение целевой переменной или изменение пространства гипотез (т. Е. Выбор другой модели) изменяет этот компонент.

Изменить (для ссылки на другие ответы): Производительность модели в зависимости от сложности:

,

где errorD - ошибка по всему распределению D (на практике оценивается с помощью тестовых наборов).


3
Я думаю, что вы должны определить свою терминологию. OP не использует термины «смещение» или «дисперсия» в вопросе, вы не используете термины «переоснащение» или «недостаточное соответствие» в своем ответе (кроме как в цитате вопроса). Я думаю, что это будет гораздо более ясный ответ, если вы объясните связь между этими терминами.
Грегор

4

Почти все статистические проблемы можно сформулировать в следующем виде:

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

f^f~f

Если вы посмотрите на статистическую проблему таким образом, то подгонка модели - это всегда баланс между недостаточным оснащением и переоснащением, и любое решение - это всегда компромисс. Мы сталкиваемся с этой проблемой, потому что наши данные случайные и шумные.


2

Каковы основные причины переоснащения и недостаточного оснащения?

Для переоснащения модель слишком сложна, чтобы хорошо соответствовать обучающим данным. Для подгонки модель слишком проста.

Почему мы сталкиваемся с этими двумя проблемами при обучении модели?

Трудно выбрать «правильную» модель и параметры для данных.


0

Переоснащение и недостаточное оснащение являются в основном неадекватными объяснениями данных с помощью гипотетической модели и могут рассматриваться как модель, которая объясняет или занижает данные. Это создается отношениями между моделью, используемой для объяснения данных, и моделью, генерирующей данные. В нашей попытке объяснить, мы не можем получить доступ к базовой модели, поэтому наше суждение основывается на другом факторе: неопределенности или ошибки.

Когда, пытаясь уместить все отклонения, мы используем модель, которая слишком сложна, мы переоснащаемся. Это создается благодаря свободному правлению в выборе модели и слишком большой важности для панелей ошибок (или для того, чтобы объяснить всю изменчивость, которая одинакова). Когда мы ограничиваемся моделью, которая слишком проста для описания данных, и не уделяем достаточного внимания барам ошибок (или не объясняем изменчивость), мы недооцениваем.

Как можно избежать этих двух? Информационные модели (не на основе данных, а из предшествующего знания проблемы) и значимые неопределенности.


0

В двух словах, переоснащение возникает как следствие паттернов, которые появляются в вашем наборе обучающих данных, но не присутствуют во всей совокупности (они появились из-за неудачи). Если вы используете простую модель (например, для линейной регрессии), риск переобучения низкий, так как число возможных паттернов, которые он может обнаружить, невелико, и, следовательно, вероятность того, что один из них случайно появится в выборке, также невелика. Примером этого может быть случай, если вы попытаетесь изучить корреляции 1 000 000 переменных в популяции, берущей выборку из 100 человек. Некоторые функции могут случайно представлять огромную выборочную корреляцию, несмотря на то, что они полностью независимы друг от друга

Другая причина переоснащения - предвзятая выборка («образцы поддельных образцов» существуют потому, что выборка не является действительно случайной). Например, если вы хотите изучить средний размер определенного вида грибов, отправляясь туда и находя их в природе Вы, вероятно, переоцените это (более крупные грибы легче найти)

С другой стороны, недостаточное оснащение является более простым явлением. Это может означать две очень простые вещи: A) У нас недостаточно данных для модели, чтобы узнать модель населения, или B) Наша модель недостаточно сильна, чтобы отразить ее.

y=ax+ϵϵ

y=x2+ϵ


0

Короткий ответ:

Основная причина переоснащения - использование сложной модели, когда у вас небольшой тренировочный набор.

Основной причиной недостаточного оснащения является использование модели, которая слишком проста и не может хорошо работать на тренировочном наборе.


Основная причина переоснащения?

  • Модели с высокой пропускной способностью могут перегрузиться, запомнив свойства тренировочного набора, которые не очень хорошо им подходят в тестовом наборе.

-Глубокая учебная книга, Goodfellow et al.

Цель машинного обучения - обучить модель на тренировочном наборе в надежде, что она будет так же хорошо работать с данными тестирования. Но всегда ли получение хороших результатов на тренировочном комплекте приводит к хорошим результатам на тестовом наборе? Это не так, потому что ваши тренировочные данные ограничены . Если у вас ограниченные данные, ваша модель может найти некоторые шаблоны, которые работают для этого ограниченного обучающего набора, но эти шаблоны не обобщаются на другие случаи (т. Е. Набор тестов). Это может быть решено одним из следующих способов:

A- Предоставление большего обучающего набора для модели, чтобы уменьшить вероятность наличия произвольных шаблонов в обучающем наборе.

B- Использование более простой модели, чтобы модель не могла найти эти произвольные шаблоны в обучающем наборе. Более сложная модель сможет находить более сложные шаблоны, поэтому вам нужно больше данных, чтобы убедиться, что ваш тренировочный набор достаточно большой и не содержит произвольных шаблонов.

(Например, представьте, что вы хотите научить модель распознавать корабли из грузовиков, и у вас есть по 10 изображений каждого. Если большинство кораблей на ваших изображениях находятся в воде, ваша модель может научиться классифицировать любую картинку с синим фоном как корабль вместо того, чтобы узнавать, как выглядит корабль. Теперь, если у вас было 10000 изображений кораблей и грузовиков, ваш тренировочный набор, скорее всего, будет содержать корабли и грузовики с различным фоном, и ваша модель больше не будет полагаться только на синий фон.)

Основная причина недостаточного оснащения?

  • Недостаточное оснащение возникает, когда модель не может получить достаточно низкое значение ошибки в тренировочном наборе.

  • Модели с низкой вместимостью могут изо всех сил пытаться соответствовать тренировочному набору.

-Глубокая учебная книга, Goodfellow et al.

Недостаточное оснащение возникает, когда ваша модель просто недостаточно хороша для изучения тренировочного набора, а это значит, что ваша модель слишком проста. Всякий раз, когда мы начинаем решать проблему, нам нужна модель, которая, по крайней мере, способна добиться хороших результатов на тренировочном комплекте, а затем мы начинаем думать о снижении переоснащения. Как правило, решение проблемы недостаточного соответствия довольно простое: используйте более сложную модель.


0

Рассмотрим пример, где у нас есть гипотеза / модельное уравнение,

y=q*X+c,

где X = список характеристик, y = метка, а q и c - коэффициенты, которые мы должны обучить.

Если мы придумаем значения коэффициента, которые достаточно велики, и начнем подавлять значение признаков (то есть X), то в таком случае мы всегда получим постоянное значение y, независимо от любого значения X. Это называется предвзятым или недоделанная модель.

Рассмотрим другой пример сложной гипотезы,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

После определения наилучшего значения коэффициентов возможно, что для обучающих данных мы можем получить минимальные потери. Только потому, что мы сделали нашу модель настолько сложной и тесно связанной, что она очень хорошо работает с данными обучения. В то время как с невидимыми данными мы можем получить довольно противоположные результаты. Это называется модель с сильным разбросом или нарядом.

Смещенная модель нуждается в большей сложности при выборе модели, в то время как модель с высокой дисперсией требует снижения сложности при выборе модели. Техника регуляризации может помочь нам определить правильный уровень сложности модели, и с помощью этой техники мы можем преодолеть обе проблемы.


Вы можете использовать математическое форматирование в своем ответе. Дополнительная информация: math.meta.stackexchange.com/questions/5020/…
Sycorax сообщает, что восстановит Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.