SVM для несбалансированных данных

15

Я хочу попытаться использовать машины опорных векторов (SVM) в моем наборе данных. Перед тем, как попытаться решить проблему, меня предупредили, что SVM плохо работают с крайне несбалансированными данными. В моем случае у меня может быть 95-98% 0 и 2-5% 1.

Я пытался найти ресурсы, в которых говорилось об использовании SVM для разреженных / несбалансированных данных, но все, что я мог найти, это «sparseSVM» (которые используют небольшое количество векторов поддержки).

Я надеялся, что кто-нибудь сможет кратко объяснить:

Насколько хорошо SVM можно ожидать с таким набором данных?
Какие, если таковые имеются, модификации должны быть сделаны для алгоритма SVM
Какие ресурсы / документы обсуждают это

svm libsvm unbalanced-classes

— DankMasterDan
источник

15

Многие реализации SVM решают эту проблему, назначая разные веса положительным и отрицательным экземплярам. По сути, вы взвешиваете образцы так, чтобы сумма весов для положительных значений была равна сумме отрицательных значений. Конечно, при оценке SVM вы должны помнить, что если 95% данных являются отрицательными, тривиально получить точность 95%, всегда прогнозируя отрицательные значения. Таким образом, вы должны убедиться, что ваши показатели оценки также взвешены, чтобы они были сбалансированы.

В частности, в том libsvm, который вы добавили в качестве тега, есть флаг, который позволяет вам установить вес классов ( -wя полагаю, но проверьте документы ).

Наконец, из личного опыта я могу сказать вам, что часто обнаруживаю, что SVM даст очень похожие результаты с коррекцией веса или без нее.

— побитовое
источник

Обыграй меня :-)

— Марк Клазен,

@ У меня та же проблема с несбалансированными данными, и я получаю точность 99%. Я использовал веса в libsvm. Вы упомянули, что показатели оценки также должны быть взвешенными. Я хотел знать, как мы можем оценить показатели оценки.

— Хани Гок

1

@HaniGoc в основном вы хотите отдельно рассчитать точность для каждого класса и взять среднее значение этого. Так, например, если у вас есть 10 классов A и 90 классов B, и вы догадались, что все образцы относятся к классу B, в стандартной точности у вас будет

90 / 100 = 0.9

$90/100 = 0.9$

0.5 * (0 / 10 + 90 / 90) = 0.5

$0.5*(0/10+90/90) = 0.5$

7

SVM отлично работают с разреженными и несбалансированными данными. Взвешенный по классам SVM предназначен для работы с несбалансированными данными, назначая более высокие штрафы за неправильную классификацию для учебных классов меньшинства.

— Марк Клазен
источник

5

В случае таких редких данных SVM будет хорошо работать.

Как утверждает @Bitwise, вы не должны использовать точность для измерения производительности алгоритма.

Вместо этого вы должны рассчитать точность, вспомнить и F-Оценка алгоритма.

— alexandrekow
источник

Можете ли вы расширить ваши рассуждения? Кроме того, как бы вы оценили F-показатель после завершения классификации (в тестовом наборе)? Спасибо

— Спейси

Чтобы измерить FScore на тестовом наборе, вам нужно будет вручную классифицировать его, а затем вычислить отзыв и точность, используя ручные данные по сравнению с предсказанными данными. Что бы вы хотели, чтобы я расширил, почему SVM хорошо работает с разреженными данными?

— alexandrekow

Да, почему SVM работает с разреженными данными, было бы неплохо. Спасибо

— Спейси

«Простое наличие разреженных элементов не представляет никакой проблемы для SVM. Один из способов убедиться в этом состоит в том, что вы можете сделать случайное вращение координатных осей, что оставит проблему неизменной и даст такое же решение, но сделает данные полностью разрежены (отчасти так работают случайные проекции »( stats.stackexchange.com/questions/23470/… )

— alexandrekow