Я хочу попытаться использовать машины опорных векторов (SVM) в моем наборе данных. Перед тем, как попытаться решить проблему, меня предупредили, что SVM плохо работают с крайне несбалансированными данными. В моем случае у меня может быть 95-98% 0 и 2-5% 1.
Я пытался найти ресурсы, в которых говорилось об использовании SVM для разреженных / несбалансированных данных, но все, что я мог найти, это «sparseSVM» (которые используют небольшое количество векторов поддержки).
Я надеялся, что кто-нибудь сможет кратко объяснить:
- Насколько хорошо SVM можно ожидать с таким набором данных?
- Какие, если таковые имеются, модификации должны быть сделаны для алгоритма SVM
- Какие ресурсы / документы обсуждают это