Я пытаюсь классифицировать сообщения по различным категориям, используя SVM. Я составил список желаемых слов / символов из учебного набора.
Для каждого вектора, который представляет сообщение, я устанавливаю соответствующую строку, 1
если слово присутствует:
"корпус" это: [Мария, маленькая, ягненок, звезда, мерцание]
первое сообщение: "у марии был маленький ягненок" -> [1 1 1 0 0]
Второе сообщение: "Мерцай, маленькая звезда" -> [0 1 0 1 1]
Я думаю, что это довольно распространенная установка с SVM, но мой вопрос, с тысячами слов в наборе, что, если на самом деле появляются только 1-2 слова на сообщение? Повлияет ли линейная зависимость моего набора обучающих векторов на способность алгоритма сходиться?
flexmix
- хотя у меня есть "Learn R" в моем календаре в течение нескольких лет!