учебные подходы для сильно несбалансированного набора данных

16

У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов:

1) Использование взвешенного SVM для всего тренировочного набора (P: 1200, N: 12000)

2) Используя SVM на основе выборочного обучающего набора (P: 1200, N: 1200), 1200 отрицательных случаев отбираются из 12000 случаев.

Есть ли теоретическое руководство по решению, какой подход лучше? Так как набор тестовых данных сильно несбалансирован, должен ли я также использовать несбалансированный обучающий набор?

— бит вопрос
источник

1

пожалуйста, проверьте следующие вопросы: контролируемое обучение с «редкими» событиями и лучший способ обработки несбалансированного мультиклассового набора данных с SVM . Это помогает? Честно говоря, ваши вопросы звучат довольно похоже;).

— Штеффен

7

Из недавнего поста на reddit ответ от datapraxis будет интересен.

редактировать: упомянутый документ - Хайбо Хе, Эдвардо А. Гарсия, «Изучение несбалансированных данных», «IEEE транзакции в области знаний и инженерии данных», с. 1263-1284, сентябрь 2009 г. (PDF)

— user728785
источник

0

Парная расширенная логистическая регрессия, ROC-обучение, Boosting и Bagging (агрегация Bootstrap), кластерный ансамбль на основе каналов (LCE), Байесовская сеть, Ближайшие центроидные классификаторы, Байесовские методы, Взвешенный грубый набор, k-NN

и множество методов выборки для устранения дисбаланса.

— Владимир Чупахин
источник