У меня есть задача классификации, где у меня есть несколько предикторов (один из которых является наиболее информативным), и я использую модель MARS для построения моего классификатора (меня интересует любая простая модель, и использование glms для иллюстративных целей будет тоже хорошо). Теперь у меня огромный дисбаланс классов в данных обучения (около 2700 отрицательных выборок для каждой положительной выборки). Как и в случае с задачами поиска информации, меня больше беспокоит прогнозирование положительных тестовых выборок высшего ранга. По этой причине производительность на кривых Precision Recall важна для меня.
Прежде всего, я просто натренировал модель на своих тренировочных данных, сохраняя дисбаланс в классе. Я визуализирую свою обученную модель красным цветом, а самый важный ввод - синим.
Тренинг по несбалансированным данным, оценка по несбалансированным данным :
Думая, что дисбаланс классов отбрасывает модель, так как изучение положительных выборок высшего ранга является крошечной частью всего набора данных, я увеличил количество положительных тренировочных баллов, чтобы получить сбалансированный набор обучающих данных. Когда я строю представление на сбалансированном тренировочном наборе, я получаю хорошую производительность. На кривых PR и ROC моя обученная модель работает лучше, чем входы.
Обучение сбалансированным данным (с повышенной дискретизацией), оценка также сбалансированных данных (с повышенной дискретизацией):
Однако, если я использую эту модель, обученную по сбалансированным данным, для прогнозирования по исходному, несбалансированному обучающему набору, я все равно получаю плохие результаты на кривой PR.
Обучение сбалансированным данным (с повышением выборки), оценка исходных несбалансированных данных:
Итак, мои вопросы:
- Является ли причиной того, что визуализация кривой PR показывает худшую производительность моей обученной модели (красная), а кривая ROC показывает улучшения из-за дисбаланса класса?
- Могут ли подходы повторной выборки / повышения выборки / уменьшения выборки решить эту проблему, чтобы заставить обучение сосредоточиться на области высокой точности / низкой степени повторного выбора?
- Есть ли другой способ сфокусировать обучение на области высокой точности / низкого отзыва?