Популярный подход к решению проблем дисбаланса класса состоит в том, чтобы сместить классификатор так, чтобы он обращал больше внимания на положительные примеры. Это может быть сделано, например, путем увеличения штрафа, связанного с неправильной классификацией положительного класса относительно отрицательного класса. Другой подход заключается в предварительной обработке данных путем избыточной выборки класса большинства или недостаточной выборки класса меньшинства для создания сбалансированного набора данных.
Однако в вашем случае дисбаланс классов не является проблемой. Возможно, это вопрос настройки параметров, поскольку поиск оптимальных параметров для классификатора SVM может быть довольно утомительным процессом. Например, в ядре RBF есть два параметра: и . Заранее неизвестно, какие и лучше всего подходят для данной проблемы; следовательно, необходимо выполнить выбор модели (поиск параметров).γ C γCγCγ
На этапе предварительной обработки данных помните, что SVM требует, чтобы каждый экземпляр данных был представлен как вектор действительных чисел. Следовательно, если есть категориальные атрибуты, рекомендуется преобразовывать их в числовые данные, используя m чисел для представления атрибута m-категории (или заменяя его m новыми двоичными переменными).
Кроме того, крайне важно масштабировать переменные перед применением SVM, чтобы избежать доминирования атрибутов в больших числовых диапазонах над атрибутами в меньших числовых диапазонах.
Проверьте эту бумагу .
Если вы работаете в R, проверьте функцию настройки (пакет e1071) для настройки гиперпараметров с помощью поиска в сетке по заданным диапазонам параметров. Затем, используя plot.tune , вы можете визуально увидеть, какой набор значений дает меньшую частоту появления ошибок.
Существует быстрый способ поиска параметров. Существует пакет R под названием «svmpath», который за один раз вычисляет полный путь регуляризации для двухклассового классификатора SVM. Вот ссылка на статью, которая описывает, что он делает.
PS Вы также можете найти эту статью интересной: получение калиброванных оценок вероятности