У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов:
1) Использование взвешенного SVM для всего тренировочного набора (P: 1200, N: 12000)
2) Используя SVM на основе выборочного обучающего набора (P: 1200, N: 1200), 1200 отрицательных случаев отбираются из 12000 случаев.
Есть ли теоретическое руководство по решению, какой подход лучше? Так как набор тестовых данных сильно несбалансирован, должен ли я также использовать несбалансированный обучающий набор?