Является ли модернизированная модель обязательно бесполезной?


25

Предположим, что модель имеет 100% точность данных тренировки, но 70% точность данных теста. Правдив ли следующий аргумент в отношении этой модели?

Очевидно, что это переоборудованная модель. Точность испытания может быть повышена за счет уменьшения переоснащения. Но эта модель все еще может быть полезной моделью, поскольку она имеет приемлемую точность для данных испытаний.


17
Если в конкретных приложениях приемлемо 70%, то я согласен с вами.
Ричард Харди

6
Я полностью согласен с @RichardHardy. Возьмем, к примеру, случайный лес: часто по построению производительность выборки (а не производительность вне пакета) близка к 100%, что приводит к чрезмерному переобучению. Но тем не менее, более низкая производительность, оцениваемая вне пакета или на тестовых / проверочных наборах, может быть достаточно высокой, чтобы сделать ее полезной моделью.
Майкл М

1
@ Метариат Почему бы и нет? Эта точность получена на тестовом наборе, который не используется на этапе обучения.
Хоссейн

3
@Metariat, такой аргумент может снять большую часть статистической практики, например, оценка OLS в линейной нормальной модели, критерий равенства выборки означает предполагаемое значение, а что нет. Что интересно, так это то, что аргумент не зависит от переобучения модели на тренировочном образце. Это также относится к моделям нижнего белья и любой модели в целом. Это не правильно? t
Ричард Харди

4
Я бы не назвал эту модель переоснащенной. Установлена ​​переопределенная модель, сравнивающая эффективность валидации с тестовой производительностью. Даже тогда, только если производительность теста была значительно ниже приемлемой, возможно, катастрофически. Тренировочная производительность ничего не значит.
Firebug

Ответы:


32

Я думаю, что аргумент правильный. Если 70% приемлемо в конкретном приложении, тогда модель полезна, даже если она переоснащена (в более общем случае, независимо от того, переизбрана она или нет).

В то время как балансирование переоснащения и недостаточного оснащения касается оптимальности (поиск оптимального решения), удовлетворительная производительность - это достаточность ( достаточно ли модель справляется с поставленной задачей?). Модель может быть достаточно хорошей, не будучи оптимальной.

Изменить: после комментариев Firebug и Мэтью Друри под ОП, я добавлю, что, чтобы судить, является ли модель переоснащена без знания производительности проверки может быть проблематичным. Firebug предлагает сравнить валидацию и производительность теста, чтобы измерить количество переоснащения. Тем не менее, когда модель обеспечивает 100% точность на тренировочном наборе, не обеспечивая 100% точности на тестовом наборе, это является индикатором возможного переоснащения (особенно в случае регрессии, но не обязательно при классификации).


Вы попросили привести пример: возьмите код для нейронной сети из набора данных радужной оболочки по адресу stats.stackexchange.com/a/273930/2958, а затем попробуйте set.seed(100)на примере, подобном описанному здесь явлению, и set.seed(15)наоборот. Возможно, лучше сказать «показатель возможного переоснащения»
Генри

Возможно ли когда-либо, чтобы модель достигла 100% точности как на тренировке, так и на испытаниях, и не имеет переоценки?
Рика

1
@ Бриз, я думаю, вы могли бы задать это в отдельной ветке (и, если необходимо, дать ссылку на эту тему).
Ричард Харди

Я только что сделал вот ссылку
Рика

25

В моем прошлом проекте с обнаружением мошенничества с кредитными картами мы намеренно хотели переписать данные / жестко запрограммированные, чтобы запомнить случаи мошенничества. (Обратите внимание, что переоснащение одного класса не совсем общая проблема переоснащения, о которой говорил OP.) Такая система имеет относительно низкий уровень ложных срабатываний и удовлетворяет наши потребности.

Так что, я бы сказал, в некоторых случаях может быть полезна переоборудованная модель.


5
Этот ответ довольно интересен, поскольку в нем представлен пример использования. Я думаю, что «жестко запоминать» @ hxd1011 означает, что модель убедилась, что каждый из зарегистрированных случаев мошенничества приводит к «флагу мошенничества» и что они не были сглажены или интерполированы, скажем, подобранной функцией , Что-то в этом роде, верно?
Я не могу исправить это

@ IcannotFix это да. На самом деле, мы пробовали много других способов контролировать ложноположительные результаты. Но попытки обмануть случаи мошенничества сумасшедшим образом сработали хорошо.
Haitao Du

3
ββ

3
Это может раздражать, но это в тысячи раз меньше, чем разрушать ваши финансы, потому что кто-то нечестивый получил информацию о вашей карте.
Мэтью Друри

12

Может быть, будьте осторожны. Когда вы говорите, что точность в 70% (как бы вы ее ни измеряли) достаточно для вас, создается впечатление, что вы предполагаете, что ошибки распределяются случайным или равномерным образом.

Но один из способов взглянуть на переоснащение состоит в том, что это происходит, когда модельная техника позволяет (и ее процесс обучения поощряет) уделять слишком много внимания причудам в тренировочном наборе. Субъекты в общей популяции, которые разделяют эти причуды, могут иметь сильно несбалансированные результаты.

Поэтому, возможно, у вас получится модель, которая говорит, что у всех рыжих собак рак - из-за этой специфической особенности ваших тренировочных данных. Или что женатым людям в возрасте от 24 до 26 лет почти гарантировано подано мошенническое страховое возмещение. Ваша точность 70% оставляет много места для карманов предметов, чтобы быть на 100% неправильными, потому что ваша модель подходит.

(Отсутствие избыточной экипировки не является гарантией того, что у вас не будет карманов неправильных прогнозов. Фактически, модель с недостаточной подгонкой будет иметь множество плохих прогнозов, но с переобучением вы знаете, что вы усиливаете причуды в ваших тренировочных данных. .)


Спасибо. Вы имеете в виду, что возможно, что эта 70% -ая точность получена на причудах в данных обучения, которые также доступны в данных испытаний? Разве мы не можем судить, основываясь на точности данных испытаний? Я думаю, что причуды в данных обучения, которые доступны в данных теста, должны быть изучены во время обучения.
Хоссейн

1
Если я вас понимаю, все будет наоборот: приучение к причудам дало вам высокую точность в тренировках. Причина, по которой вы получаете меньшую точность при тестировании, заключается в том, что эти особенности не применяются к вашему общему набору данных. Но, конечно, ваши учебные и тестовые наборы - даже если вы делаете перекрестную проверку, которая помогает - могут быть странными в отношении вашего населения. В этом случае ваши результаты тестирования / проверки не смогут точно предсказать, как вы на самом деле работаете.
Уэйн

Вы правы в том, что набор тестов может быть странным по отношению к населению, но это не относится к переоцененным моделям. Все наши оценки страдают от этого, и у нас нет другого выбора, кроме как полагаться на набор тестов в качестве прокси для истинного населения.
Хоссейн

Правда, это не уникально для переоснащенных моделей, но оно усиливается в моделях для переодевания. Я хочу сказать, что по определению модель подходит, потому что она явно страдает от переоценки причуд.
Уэйн

7

Нет, они могут быть полезны, но это зависит от вашей цели. На ум приходит несколько вещей:

  1. Fββ1

  2. Такой классификатор может быть действительно полезным в ансамбле . Мы могли бы иметь один классификатор с нормальными весами, один, который перевешивает TPR, и тот, который перевешивает FNR. Тогда даже простое голосование по правилу трех или усреднение даст лучший AUC, чем любой лучший классификатор. Если в каждой модели используются разные гиперпараметры (или обучающие наборы с субдискретизацией, или модели архитектуры), это дает ансамблю некоторый иммунитет от переоснащения.

  3. Точно так же для защиты от спама, мошенничества или кредитного скоринга в реальном времени хорошо и желательно использовать иерархию классификаторов. Классификаторы уровня 1 должны оценивать очень быстро (мс), и вполне нормально иметь высокий FPR ; любые ошибки, которые они совершат, будут обнаружены более точными, полнофункциональными, более медленными классификаторами более высокого уровня или, в конечном счете, рецензентами. Очевидный пример: не допускать, чтобы заголовки фальшивых новостей от поглощений аккаунта в Твиттере, такие как «Бомбардировка Белого дома в 2013 году, убивает троих», не повлияли бы на миллиарды долларов торговли в течение мс после публикации. Классификатор уровня 1 может пометить это как положительный для спама; допустим, потребуется некоторое время, чтобы (автоматически) определить истинность / ложность сенсационных, но непроверенных новостных сообщений.


2

Я не отрицаю, что переоснащенная модель все еще может быть полезной. Но имейте в виду, что эти 70% могут вводить в заблуждение информацию. То, что вам нужно для того, чтобы судить, является ли модель полезной или нет, является ошибкой вне выборки , а не ошибкой тестирования ( из выборки неизвестна, поэтому мы должны оценить ее, используя слепой набор для тестирования ), и эти 70% - едва хорошее приближение.

Чтобы убедиться, что мы находимся на той же странице терминологии после комментария @RichardHardy, давайте определим ошибку тестирования как ошибку, полученную при применении модели в слепом тестовом наборе. А ошибка вне выборки - это ошибка при применении модели ко всей совокупности.

Аппроксимация ошибки вне выборки зависит от двух вещей: самой модели и данных.

  • «Оптимальная» модель дает (тестирование) точность, которая почти не зависит от данных, в этом случае это было бы хорошим приближением. «Независимо от» данных ошибка прогнозирования будет стабильной.

  • Но точность переопределенной модели сильно зависит от данных (как вы упомянули, 100% на тренировочном наборе и 70% на другом наборе). Так что может случиться так, что при применении к другому набору данных точность может быть где-то ниже 70% (или выше), и у нас могут быть неприятные сюрпризы. Другими словами, эти 70% говорят вам, что вы верите, но это не так.


1
Поскольку используемый тестовый набор, который достигает 70% точности, не виден на этапе обучения, не является ли это хорошей оценкой ошибки вне выборки? Я думаю, что разница между ошибкой обучения (100%) и ошибкой тестирования (70%) не является хорошим показателем различия между ошибкой вне выборки и ошибкой теста. Вполне возможно, что модель с переоборудованием в реальном мире работает с точностью до 70%, а для тренировочных данных - на 100%. Я ожидаю, что ошибка обучения будет меньше, чем ошибка теста, так как данные обучения используются для генерации модели, но данные теста не видны во время обучения.
Хоссейн

5
Я думаю, что вы, возможно, перепутали набор проверки и набор тестов , и их соответствующие ошибки. Тест ошибок является вне образца ошибки. Хотя ошибка проверки является оптимистичным показателем выбранной модели, ошибка проверки - нет. Тест ошибок является несмещенной оценкой того , как модель будет работать на новом образце из того же населения. Мы можем оценить дисперсию тестовой ошибки, поэтому мы довольно хорошо, зная только тестовое сообщение об ошибке, пока тестовый набор не слишком мал. @Hossein
Ричард Харди

3
Можете ли вы уточнить разницу между ошибкой вне выборки и ошибкой тестирования? Насколько я понимаю, обе ошибки обнаруживаются при применении модели к образцам, которые не используются для обучения модели. Единственное возможное различие, которое я вижу, заключается в том, что при использовании данных временного ряда данные вне выборки должны быть получены из более поздних моментов времени, но эти вопросы не упоминают об этом.
Ядерный Ван

1
С моей точки зрения, ошибка тестирования - это ошибка, полученная при применении модели в слепом множестве, это аппроксимация ошибки вне выборки, которая является ошибкой, полученной при применении модели ко всей совокупности. И это не то же самое, ценная информация - ошибка вне выборки. И когда модель переоснащена, ошибка тестирования не является стабильной, и другие наборы данных могут иметь плохие предположения.
Метариат

4
@ Метариат, вы правы, что ошибка теста является оценочной и может отличаться от одного набора тестов к другому. Однако, как я упоминал ранее, нет никаких оснований ожидать, что ошибка теста недооценивает истинную ошибку (в среднем это не так). Таким образом, взяв достаточно большой тестовый образец, мы можем связать тестовую ошибку с желаемым уровнем достоверности в желаемом диапазоне. Теперь, на практике, возможно, вам следует определить ошибку теста, отредактировав свой ответ, чтобы убедиться, что нет никакого недопонимания того, что вы имеете в виду, когда сравниваете ошибку теста с ошибкой вне выборки.
Ричард Харди
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.