Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)


31

Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки наилучшей конфигурации гиперпараметра.

Насколько мне известно, этот результат является предвзятым, и они должны были сохранить отдельный набор тестов для получения оценки точности образцов, не используемых для оптимизации гиперпараметров.

Я прав? Можете ли вы предоставить некоторые ссылки (предпочтительно исследовательские работы), которые описывают это неправильное использование перекрестной проверки?


3
Обратите внимание, что вместо отдельного набора тестов можно использовать так называемую вложенную перекрестную проверку . Если вы ищете этот термин на этом сайте, вы найдете много дискуссий. В частности , ищите ответы @DikranMarsupial, который является одним из авторов второй статьи, приведенной в принятом ответе.
говорит амеба: восстанови Монику

Ответы:


30

Да, есть проблемы с сообщением только о кратных результатах CV. Вы можете использовать, например, следующие три публикации для своих целей (хотя, конечно, есть и другие), чтобы указать людям правильное направление:

Мне лично они нравятся, потому что они стараются излагать проблемы более простым языком, чем в математике.


2
Точнее говоря, проблема не в том, чтобы сообщать о результатах перекрестной проверки, а в том, чтобы сообщать об оценках производительности, которые были частью процесса выбора / оптимизации.
cbeleites поддерживает Монику

1
Также обратите внимание, что документ Bengio & Grandvalet несколько менее актуален, если проблема заключается в производительности конкретной модели, обученной на конкретном наборе данных - они обсуждают производительность для того же алгоритма обучения, примененного к новым наборам данных из той же совокупности (для чего требуется включить дисперсию между различными наборами данных одинакового размера, отобранными из одного и того же источника - что не является проблемой, если мы говорим о прогнозировании эффективности модели, обученной на конкретном наборе данных).
cbeleites поддерживает Монику

1
@cbeleites Правильно определено: в первом наброске ответа я случайно выбрал третью ссылку вместо второй, но позже не хотел больше удалять информацию из уже принятого ответа - поэтому вместо этого я добавил второй между (см. варианты ответа). Тем не менее, я думаю, что вопрос в основном касался сообщаемой ошибки, и эти документы указывают на некоторые вещи, которые можно сделать неправильно с CV в этом отношении, очень хорошо, ИМХО.
geekoverdose
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.