Насколько плоха настройка гиперпараметра вне перекрестной проверки?


20

Я знаю, что выполнение настройки гиперпараметра вне перекрестной проверки может привести к смещенно высоким оценкам внешней достоверности, потому что набор данных, который вы используете для измерения производительности, тот же, который вы использовали для настройки функций.

Мне интересно, насколько это плохо . Я могу понять, как это было бы очень плохо для выбора функции, так как это дает вам огромное количество параметров для настройки. Но что, если вы используете что-то вроде LASSO (который имеет только один параметр, степень регуляризации) или случайный лес без выбора объектов (который может иметь несколько параметров, но ничего более драматичного, чем добавление / удаление шумовых функций)?

Насколько сильно вы можете ожидать от этих сценариев оценки ошибок обучения в этих сценариях?

Буду признателен за любую информацию по этому вопросу - тематические исследования, документы, анекданные и т. Д. Спасибо!

РЕДАКТИРОВАТЬ: Чтобы уточнить, я не говорю об оценке производительности модели на данных обучения (то есть, не использовать перекрестную проверку вообще). Под «настройкой гиперпараметра вне перекрестной проверки» я подразумеваю использование перекрестной проверки только для оценки производительности каждой отдельной модели, но не включая внешний, второй цикл перекрестной проверки, чтобы исправить переобучение в процедуре настройки гиперпараметра (в отличие от переоснащение во время тренировочной процедуры). Смотрите, например, ответ здесь .

Ответы:


17

Эффект этого смещения может быть очень велик. Хорошей демонстрацией этого являются открытые соревнования по машинному обучению, которые проводятся на некоторых конференциях по машинному обучению. У них обычно есть обучающий набор, набор проверки и набор тестов. Конкуренты не видят ярлыки ни для набора проверки, ни для набора тестов (очевидно). Набор валидации используется для определения рейтинга участников в таблице лидеров, который каждый может видеть во время соревнования. Для тех, кто находится во главе таблицы лидеров в конце соревнования, очень часто быть очень низким в окончательном рейтинге, основанном на данных теста. Это потому, что они настроили гиперпараметры для своих систем обучения, чтобы максимизировать свою производительность в таблице лидеров, и при этом перегрузили данные проверкинастраивая свою модель. Более опытные пользователи почти не обращают внимания на таблицу лидеров и применяют более строгие объективные оценки производительности, чтобы руководствоваться своей методологией.

Пример в моей статье (упомянутый Жаком) показывает, что эффекты такого смещения могут быть того же размера, что и разница между алгоритмами обучения, поэтому короткий ответ не использует смещенные протоколы оценки производительности, если вы искренне заинтересованы в выяснении того, что работает, а что нет. Основное правило - «трактовать выбор модели (например, настройку гиперпараметров) как неотъемлемую часть процедуры подбора модели и включать ее в каждую перекрестную проверку, используемую для оценки эффективности».

Тот факт, что регуляризация менее склонна к чрезмерной подгонке, чем выбор функций, является именно той причиной, по которой LASSO и т. Д. Являются хорошими способами выполнения выбора функций. Тем не менее, размер смещения зависит от количества функций, размера набора данных и характера задачи обучения (т. Е. Существует элемент, который зависит от конкретного набора данных и будет варьироваться от приложения к приложению). Зависимый от данных характер этого означает, что вам лучше оценивать размер смещения, используя несмещенный протокол и сравнивая разницу (сообщение о том, что этот метод является устойчивым для чрезмерного соответствия при выборе модели в данном конкретном случае, может представлять интерес в себе).

GC Cawley и NLC Talbot (2010), «Перенастройка при выборе модели и последующее смещение выбора при оценке производительности», Журнал исследований в области машинного обучения, 11, стр.2079, раздел 5.2.)


7
  • Предвзятость, о которой вы говорите, все еще в основном связана с переоснащением.
  • Вы можете сохранить риск на низком уровне, оценив лишь несколько моделей для исправления гиперпараметра регуляризации, и сделав небольшую сложность в рамках вероятного выбора.

  • Как указывает @MarcClaesen, у вас есть кривая обучения, которая несколько ослабит смещение. Но кривая обучения, как правило, крутая только в очень немногих случаях, а затем переоснащение является гораздо более серьезной проблемой.

В конце концов, я ожидаю, что уклон будет зависеть от

  • данные (трудно переопределить одномерную задачу ...) и
  • ваш опыт и поведение при моделировании: я думаю, что вы могли бы принять решение о примерно соответствующей сложности для вашей модели, если у вас достаточно опыта как с типом модели, так и с приложением, и если вы очень хорошо себя ведете и не уступаете соблазн для более сложных моделей. Но, конечно, мы вас не знаем и поэтому не можем судить, насколько консервативно ваше моделирование.
    Кроме того, признание того, что ваша модная статистическая модель очень субъективна и у вас не осталось дел для проверки, обычно не то, что вам нужно. (Даже в ситуациях, когда ожидается, что общий результат будет лучше.)

Я не использую LASSO (поскольку выбор переменных не имеет большого смысла для моих данных по физическим причинам), но PCA или PLS обычно работают хорошо. Ридж - это альтернатива, близкая к LASSO и более подходящая для вида данных. С этими данными я видел на порядок больше ошибочных классификаций по «ярлыку-валидации» по сравнению с надлежащей независимой (внешней) перекрестной проверкой. Однако в этих экстремальных ситуациях мой опыт говорит, что ярлык-проверка выглядел подозрительно хорошо, например, 2% ошибочных классификаций => 20% при правильной перекрестной проверке.

Я не могу дать вам реальные цифры, которые имеют прямое отношение к вашему вопросу, хотя:

  • До сих пор я больше заботился о других типах «горячих клавиш», которые случаются в моей области и приводят к утечкам данных, например, перекрестная проверка спектров вместо пациентов (огромный уклон! Я могу показать вам 10% ошибочной классификации -> 70% = угадывание среди 3 класса), или не включая PCA в перекрестной проверке (2 - 5% -> 20 - 30%).
  • В ситуациях, когда мне нужно решить, следует ли потратить одну перекрестную проверку, которую я могу себе позволить, на оптимизацию модели или на проверку, я всегда решаю для проверки и фиксирую параметр сложности по своему опыту. PCA и PLS работают хорошо, так как методы регуляризации таковы, потому что параметр сложности (# компоненты) напрямую связан с физическими / химическими свойствами проблемы (например, я могу догадаться, сколько химически различных групп веществ я ожидаю иметь значение). Кроме того, по физико-химическим причинам я знаю, что компоненты должны выглядеть как спектры, и если они шумные, я переоснащаюсь. Но опыт может также оптимизировать сложность модели на старом наборе данных из предыдущего эксперимента, который в общем достаточно похож, чтобы оправдать передачу гиперпараметров, а затем просто использоватьпараметр регуляризации для новых данных.
    Таким образом, я не могу претендовать на оптимальную модель, но могу утверждать, что могу получить разумную оценку производительности, которую могу получить.
    А с количеством пациентов, которое у меня есть, в любом случае невозможно проводить статистически значимые сравнения моделей (помните, что общее число моих пациентов ниже рекомендуемого размера выборки для оценки одной пропорции [в соответствии с эмпирическим правилом, которое здесь дает @FrankHarrell]).

Почему бы вам не запустить некоторые симуляции, максимально приближенные к вашим данным, и сообщить нам, что происходит?


О моих данных: я работаю со спектроскопическими данными. Наборы данных, как правило, широки: несколько десятков независимых случаев (пациентов; хотя, как правило, большое количество измерений в каждом случае. Приблизительно 10³ варьируется в необработанных данных, которые я могу сократить до 250, применяя знания предметной области для вырезания неинформативных областей вне моего спектра и уменьшить спектральное разрешение.


5

Если вы выбираете только гиперпараметр для LASSO, нет необходимости во вложенном резюме. Гиперпараметрический выбор осуществляется в одно-плоском CV-взаимодействии.

λ

LяТяλ*ТяLя

λ*

(Это не единственный метод выбора гиперпараметров, но он является наиболее распространенным - есть также «медианная» процедура, обсужденная и раскритикованная GC Cawley и NLC Talbot (2010), «Избыточная аппроксимация при выборе модели и последующее смещение выбора»). в оценке производительности ", журнал Machine Learning Research, 11 , стр.2079 , раздел 5.2.)

λ*λ*

Мне известны два экспериментальных результата в измерении смещения этой оценки (по сравнению с истинной ошибкой обобщения для синтетических наборов данных)

оба открывают доступ.

Вам нужно вложенное резюме, если:

а) вы хотите выбирать между LASSO и некоторыми другими алгоритмами, особенно если они также имеют гиперпараметры

λ*

λ*

Наконец, вложенное резюме - не единственный способ вычислить разумную объективную оценку ожидаемой ошибки обобщения. Было как минимум три других предложения


2
Можете ли вы объяснить, что вы подразумеваете под "нет резюме для выбора гиперпараметра"? Из того, что ты пишешь, я не могу понять, хочешь ли ты предупредить ОП, что они не делали вложение, или ты утверждаешь, что вообще такой вещи не существует.
cbeleites поддерживает Монику

(+1) для краткого объяснения проблемы и хороших ссылок. Но, как указывает @cbeleites, первое предложение довольно запутанно: похоже, оно предназначено для исправления недопонимания, которого нет у ОП.
Scortchi - Восстановить Монику

@cbeleites (и Scortchi) - я отвечаю на ОП «РЕДАКТИРОВАТЬ», где (я полагаю) он утверждает, что использует CV для выбора параметров («перекрестная проверка только для оценки производительности каждой отдельной модели») и его беспокоит то, что он не использовал вложенное резюме («но не включая внешний, второй цикл перекрестной проверки для корректировки наложения в процедуре настройки гиперпараметра»). Я пытался сказать ему, что нет никакого внешнего резюме в выборе параметров.
Жак Вайнер

@JacquesWainer: Я полагаю, что он хочет «исправить переоснащение в процедуре настройки гиперпараметра» при оценке производительности процедуры вне выборки (ваша ситуация b ), а не каким-либо образом исправить выбранное значение гиперпараметра с помощью вложенного CV. В любом случае, ваша правка делает начало вашего ответа более понятным.
Scortchi - Восстановить Монику

Да, я имел в виду «исправить [наивную оценку производительности] для соответствия в процедуре настройки гиперпараметра», а не «исправить [настроенные гиперпараметры] для соответствия» или что-то в этом роде. Я извиняюсь за путаницу; Я должен был более четко заявить, что меня беспокоит оценка ошибок, а не выбор параметров.
Бен Кун

2

Любой сложный алгоритм обучения, такой как SVM, нейронные сети, случайный лес, ... может достичь 100% точности обучения, если вы позволите им (например, через слабую / без регуляризации), в результате, с абсолютно ужасной производительностью обобщения.

κ(Икся,ИксJ)знак равноехр(-γ| |Икся-ИксJ| |2)γзнак равно100%

Короче говоря, вы можете легко получить идеальный классификатор в своем тренировочном наборе, который ничему не научился на независимом тестовом наборе. Вот как это плохо.


Я не говорю об обучении модели вне перекрестной проверки. Я говорю о настройке гиперпараметров (и все еще использую перекрестную проверку для оценки производительности каждого набора гиперпараметров). Я отредактирую пост, чтобы уточнить это.
Бен Кун,

100%точность обучения и бесполезные обобщения производительности в некоторых случаях.
Марк Клазен

Как вы думаете, почему я не использую перекрестную проверку? Я специально сказал: «... и все еще использую перекрестную проверку для оценки производительности каждого набора гиперпараметров».
Бен Кун

1
В вашем примере SVM настройка гиперпараметра γзнак равно будет отклонен процедурой поиска гиперпараметров, потому что ее производительность (оцениваемая с помощью цикла CV) будет очень плохой по сравнению с более экономными значениями γ, Однакоγэто дало наивысший балл, оцененный по одной петле CV, будет хуже по данным вне выборки, чем по оценкам петли CV, из-за регрессии к среднему / переобучению. Часто предлагается использовать второй цикл CV (вне процедуры настройки) для компенсации. Это смещение, величина которого меня интересует.
Бен Кун,

2
Я совершенно не понял ваш вопрос. До редактирования это было очень запутанным. Кстати, уклон, который вас интересует, не обязательно положительный; поскольку многие подходы дают значительно лучшие модели при наличии большего количества обучающих данных, что особенно актуально для небольших обучающих наборов + перекрестная проверка.
Марк Клазен
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.