У меня есть конкретный вопрос о проверке в исследованиях машинного обучения.
Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании тестовый набор может использоваться только один раз. Тем не менее, это никогда не может быть сценарием исследования, потому что мы должны улучшить нашу производительность, пока точность теста не станет лучше, чем современные результаты, прежде чем мы сможем опубликовать (или даже представить) документ.
Теперь приходит проблема. Скажем, 50% - это самый современный результат, и моя модель может в целом достичь точности 50–51, что в среднем лучше.
Тем не менее, моя лучшая точность проверки (52%) дает очень низкую точность теста, например, 49%. Затем я должен сообщить о 49% своей общей производительности, если я не смогу еще больше улучшить валидацию, что, я думаю, не дает никакой надежды. Это действительно мешает мне изучить проблему, но это не имеет значения для моих сверстников, потому что они не видят 52%, что, я думаю, является выбросом.
Итак, как люди обычно делают в своих исследованиях?
ps k-кратная проверка не поможет, потому что та же самая ситуация все еще может случиться.