учебные подходы для сильно несбалансированного набора данных


16

У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов:

1) Использование взвешенного SVM для всего тренировочного набора (P: 1200, N: 12000)

2) Используя SVM на основе выборочного обучающего набора (P: 1200, N: 1200), 1200 отрицательных случаев отбираются из 12000 случаев.

Есть ли теоретическое руководство по решению, какой подход лучше? Так как набор тестовых данных сильно несбалансирован, должен ли я также использовать несбалансированный обучающий набор?


1
пожалуйста, проверьте следующие вопросы: контролируемое обучение с «редкими» событиями и лучший способ обработки несбалансированного мультиклассового набора данных с SVM . Это помогает? Честно говоря, ваши вопросы звучат довольно похоже;).
Штеффен

Ответы:



0

Парная расширенная логистическая регрессия, ROC-обучение, Boosting и Bagging (агрегация Bootstrap), кластерный ансамбль на основе каналов (LCE), Байесовская сеть, Ближайшие центроидные классификаторы, Байесовские методы, Взвешенный грубый набор, k-NN

и множество методов выборки для устранения дисбаланса.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.