Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на частный тестовый набор?

Согласно «Псевдоматематике и финансовому шарлатанизму: влияние перенастройки на спине на производительность вне выборки» Bailey et.al. сравнительно легко "переопределить", выбирая лучшее из большого числа моделей, оцениваемых по одному и тому же набору данных. Разве это не происходит с личным списком лидеров Kaggle?

Каковы статистические обоснования для моделей с лучшими показателями в частной таблице лидеров, являющихся моделями, которые обобщают лучшие данные вне выборки?
Действительно ли компании в конечном итоге используют модели-победители, или частный список лидеров существует только для того, чтобы предоставить «правила игры», и компании на самом деле больше заинтересованы в понимании, которое возникает в результате обсуждения проблемы?

model-selection overfitting out-of-sample

— rinspy
источник

Несколько связано: stats.stackexchange.com/q/235591

— Кодиолог

Вы можете посмотреть на разницу между частными и общедоступными баллами. Можно утверждать, что не перегруженная модель должна обеспечивать одинаковую производительность для обоих наборов данных.

— Shadowtalker

@shadowtalker Это действительно был бы хороший способ обнаружить переоснащение, но на самом деле нас интересует предсказательная сила модели вне выборки, а не степень переобучения. Модель наложения - то есть та, которая работает намного лучше в выборке, чем вне выборки - может иметь лучшую производительность вне выборки, чем модель, которая не является избыточной. У меня нет под рукой справки, но я считаю, что это часто имеет место в сложных областях, например, компьютерное зрение, при использовании сложных моделей, например, CNN.

— rinspy

Что ж, пункты, которые вы представляете, справедливы, однако я думаю, что есть гораздо более реальная проблема с переобучением людей в публичном списке лидеров .

Это может произойти, когда вы сделаете 100 или около того представлений, общедоступный набор тестов в конечном итоге истечет вашим выбором гиперпараметра и, таким образом, перегрузится. Я думаю, что частный список лидеров необходим в этом отношении.

— М Сеф
источник