Соревнования Kaggle определяют итоговые рейтинги на основе проведенного тестового набора.
Выдержанный тестовый набор является образцом; он не может быть репрезентативным для моделируемого населения. Поскольку каждое представление похоже на гипотезу, алгоритм, выигравший соревнование, может, совершенно случайно, в конечном итоге соответствовать тестовому набору лучше, чем другие. Другими словами, если бы был выбран другой набор тестов и соревнование повторилось, рейтинги остались бы прежними?
Для корпорации-спонсора это на самом деле не имеет значения (вероятно, лучшие 20 заявок улучшат свои базовые показатели). Хотя, по иронии судьбы, они могут в конечном итоге использовать модель первого ранга, которая хуже, чем остальные пять лучших. Но для участников соревнования кажется, что Kaggle - это в конечном счете азартная игра - удача не нужна, чтобы наткнуться на правильное решение, она должна наткнуться на то, которое соответствует тестовому набору!
Можно ли изменить соревнование так, чтобы победили все лучшие команды, которые не могут быть статистически различимы? Или в этой группе может победить самая экономная или вычислительно дешевая модель?