Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?

У меня есть конкретный вопрос о проверке в исследованиях машинного обучения.

Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании тестовый набор может использоваться только один раз. Тем не менее, это никогда не может быть сценарием исследования, потому что мы должны улучшить нашу производительность, пока точность теста не станет лучше, чем современные результаты, прежде чем мы сможем опубликовать (или даже представить) документ.

Теперь приходит проблема. Скажем, 50% - это самый современный результат, и моя модель может в целом достичь точности 50–51, что в среднем лучше.

Тем не менее, моя лучшая точность проверки (52%) дает очень низкую точность теста, например, 49%. Затем я должен сообщить о 49% своей общей производительности, если я не смогу еще больше улучшить валидацию, что, я думаю, не дает никакой надежды. Это действительно мешает мне изучить проблему, но это не имеет значения для моих сверстников, потому что они не видят 52%, что, я думаю, является выбросом.

Итак, как люди обычно делают в своих исследованиях?

ps k-кратная проверка не поможет, потому что та же самая ситуация все еще может случиться.

machine-learning cross-validation reproducible-research

— Моу
источник

По определению, когда точность обучения (или какой-либо показатель, который вы используете) выше, чем ваше тестирование, у вас есть модель сверхнабора . По сути, ваша модель выучила особенности, которые помогают ей лучше работать в ваших данных обучения, которые не применимы к большему количеству данных и, следовательно, приводят к ухудшению производительности.

Я не уверен, почему вы говорите, что k-кратная проверка не будет полезна. Его цель - помочь избежать переоснащения ваших моделей. Возможно, вам не хватает данных? Такое утверждение важно, особенно если вы собираетесь защищать любое исследование, когда такие методы перекрестной проверки настоятельно рекомендуются.

Вы говорите, что не можете использовать тестовый набор только один раз (опять же, я полагаю, меньший размер выборки?). По моему опыту, наиболее распространенным путем является перекрестная проверка вашей модели в k-кратном порядке. Давайте возьмем пример с 10-кратным CV для выборки размером 100 и предположим, что ваша задача классификации является двоичной, чтобы сделать вычисления простыми. Поэтому я разделил свои данные на 10 разных сгибов . Затем я подгоняю свою модель к 9/10 сгибам и затем прогнозирую 1/10, которую я пропустил Для этого первого запуска полученная матрица путаницы:

    0  1
0   4  1
1   2  3

Затем я повторяю этот анализ снова, оставив следующую 1/10 кратной, и тренируюсь на другой 9/10. И получите мою следующую матрицу путаницы. После завершения у меня есть 10 матриц путаницы. Затем я суммировал бы эти матрицы (таким образом, у меня были предсказаны все 100 выборок) и затем сообщал свою статистику (Точность, PPV, оценка F1, Каппа и т. Д.). Если ваша точность не там, где вы хотите, есть много других возможностей.

Ваша модель должна быть улучшена (изменить параметры)
Возможно, вам придется попробовать другой алгоритм машинного обучения (не все алгоритмы созданы равными)
Вам нужно больше данных (трудно найти тонкие отношения)
Возможно, вам придется попробовать преобразовать ваши данные (в зависимости от используемого алгоритма)
Может не быть никакой связи между вашими зависимыми и независимыми переменными

В том-то и дело, что более низкий показатель тестирования (например, точность), чем у вашего обучения, свидетельствует о том, что вы подходите к своей модели, а не к тому, чего вы хотите, когда пытаетесь создать новую прогностическую модель.

— cdeterman
источник

Спасибо за ответ. Я имею в виду исследования машинного обучения публикациям, а не применение методов машинного обучения. Часто тесты обеспечивают стандартное разделение наборов обучения, проверки и тестирования. Более того, k-fold только сокращает дисперсию. Я все еще могу столкнуться с ситуацией, когда моя (усредненная) проверка в соотв. высокая, но тест в соотв. низок.

— Мо

Иногда забавно, что, если я немного пересмотрю свою модель, я могу просто проигнорировать выброс, потому что моя модель (и, следовательно, класс гипотезы) изменится, но это не работает для настройки гиперпараметров, потому что мы выбираем модель из гипотезы. учебный класс. Однако, действительно, у нас, исследователей, есть неопределенный класс гипотез - мы пробуем все, что хотим. Это действительно беспокоит меня во время исследований, так как часто разница в точности обычно очень мала, скажем, 0,1%.

— Мо

@ Моу, наверное, я все еще немного сомневаюсь, каков твой основной вопрос. Там, кажется, несколько вопросов. Работа с выбросами - это другая тема. Вы пытаетесь оптимизировать параметры или оценить окончательную модель? Это может быть характерно для других полей, но изменения на 0,1% довольно незначительны. Вы можете либо использовать опции, перечисленные в моем ответе, либо согласиться с тем, что вы можете получить столько же от текущей модели и данных. Модель по-прежнему выглядит нарядной (хотя и слегка).

— cdeterman

Я согласен. Я должен признать, что моя модель не так хороша. Но несколько дней назад, когда высокие показатели соотв. + низкий тест в соотв. не прыгнул на мой экран, моя модель была лучшей в мире. Это не так, хотя я ничего не изменил. Кроме того, у меня нет надежды превзойти 52% в резюме, что застряло в моем исследовании, но моим сверстникам не нужно беспокоиться об этом.

— Мо

Вы, должно быть, изменили что-то для изменения чисел, или существует некоторая рандомизация, которую вы не установили seedдля учета воспроизводимости. Я подозреваю, что ваша процедура cv имеет некоторую рандомизацию, которая при повторении может дать немного другие результаты (но это только предположение). Я действительно предлагаю вам изучить некоторые другие модели или преобразования данных, чтобы попытаться улучшить свою производительность.

— cdeterman