Соревнования Kaggle просто выиграны случайно?

Соревнования Kaggle определяют итоговые рейтинги на основе проведенного тестового набора.

Выдержанный тестовый набор является образцом; он не может быть репрезентативным для моделируемого населения. Поскольку каждое представление похоже на гипотезу, алгоритм, выигравший соревнование, может, совершенно случайно, в конечном итоге соответствовать тестовому набору лучше, чем другие. Другими словами, если бы был выбран другой набор тестов и соревнование повторилось, рейтинги остались бы прежними?

Для корпорации-спонсора это на самом деле не имеет значения (вероятно, лучшие 20 заявок улучшат свои базовые показатели). Хотя, по иронии судьбы, они могут в конечном итоге использовать модель первого ранга, которая хуже, чем остальные пять лучших. Но для участников соревнования кажется, что Kaggle - это в конечном счете азартная игра - удача не нужна, чтобы наткнуться на правильное решение, она должна наткнуться на то, которое соответствует тестовому набору!

Можно ли изменить соревнование так, чтобы победили все лучшие команды, которые не могут быть статистически различимы? Или в этой группе может победить самая экономная или вычислительно дешевая модель?

— Пользователь0
источник

Некоторые люди используют тестирование на скрытом наборе, чтобы отменить фактические тестовые значения. Это позволяет им почти идеально соответствовать результатам. Задержка предотвращает это. Мое личное мнение заключается в том, что разница между несогласными и несдержанными заключается в том, чтобы избавиться от мошенников.

— EngrStudent

Конечно, данные тестов должны быть предоставлены участникам, но мне интересно, влияет ли наличие одного набора тестов на вынос, чтобы результаты соревнований (для лучших команд ) существенно зависели в основном от случайности.

X

$X$

— user0

Баллы взвешены. Отличная система превзойдет ненужную почти каждый раз. Требуется куча работы, чтобы провалиться настолько плохо, что последнее становится первым. Локальный порядок, возможно, 10 ступеней или менее, когда присутствуют тысячи участников, изменится, если будет проведена повторная выборка. Вы можете провести численный эксперимент, чтобы показать это.

— EngrStudent

С точки зрения корпорации-спонсора, они не вынуждены фактически реализовывать выигрышную модель. Если я правильно помню, модель, победившая в конкурсе netflix, так и не была реализована. Они могут взять несколько заслуживающих доверия кандидатов среди лучших моделей и протестировать их дальше.

— Дэвид Эрнст

Ответы:

Да, ваши рассуждения верны. Если был выбран другой набор тестов и соревнование повторилось, рейтинг действительно изменился бы. Рассмотрим следующий пример. Все записи в соревновании Kaggle с бинарными метками просто угадывают (и, скажем, независимо), чтобы предсказать их вывод. Случайно, один из них согласится с несогласным больше, чем другие, даже если прогноз не идет.

Хотя это немного надумано, мы можем видеть, что отклонение в каждой из моделей представления будет означать, что применение многих таких записей действительно будет соответствовать шуму набора несогласных. Это говорит нам о том, что (в зависимости от индивидуальных дисперсий моделей) модели с топ-N, вероятно, обобщают одно и то же. Это сад разветвлений , за исключением того, что «исследователи» не одинаковы (но это не имеет значения).

Можно ли изменить соревнование так, чтобы победили все команды, которые не могут быть статистически отличены от лучших результатов тестового набора?

В самом деле.

Один из подходов (как бы это ни было непрактично) состоит в том, чтобы явно определить дисперсию данной модели в каждой записи, что даст нам КИ на их эффективность удержания.
Другой подход, который может потребовать больших вычислений, состоит в том, чтобы загрузить CI в режим удержания, предоставляя API для обучения и тестирования всем моделям.

— VF1
источник

Отличный ответ. Можете ли вы рассказать, как эти два метода могут быть реализованы?

— user0

Это интересно: лучшая модель на самом деле не может быть победившей командой.

— user0

Явное определение дисперсии невозможно без распределения данных (я упоминаю об этом только потому, что это объясняет теорию). Эта статья описывает несколько методов (и там, где они терпят неудачу) для оценки точности, включая начальную загрузку и перекрестную проверку. Однако, в отличие от статьи, в этом контексте мы делаем не CV для выбора модели на тренировочном наборе, а скорее для надежного «балла» по объединенному набору данных обучения и тестирования.

— VF1

Возможно, два раунда лучше для надежной оценки победителя. Первый удаляет 99% худшего, а второй раунд переоценивает рейтинг, чтобы «отшлифовать» порядок.

— EngrStudent

Чтобы добавить сюда идеи, ознакомьтесь с этой статьей победителя конкурса NCAA March Madness Kaggle в 2014 году. Прокрутите вниз до раздела 4 «Симуляционное исследование». Согласно их симу, если бы предсказанные вероятности их модели для каждого совпадения были на самом деле истинным состоянием природы, их медианное размещение было бы 11-м местом.

— Клумбард

Есть другие виды соревнований в Kaggle, которые не имеют случайных элементов. Например, это украденные сани Станты .

Это проблема дискретной оптимизации, и у нее даже нет частного лидера. То, что вы видите в публичном списке лидеров - это окончательные результаты.

По сравнению с контролируемым обучением, которое легко начинается для многих людей, этот тип соревнования носит более «жесткий» характер.

— Хайтау Ду
источник