Вы на самом деле натолкнулись на что-то из открытого вопроса в литературе. Как вы говорите, существует множество ядер (например, линейная, радиальная базисная функция, сигмоидальная, полиномиальная), и она будет выполнять вашу задачу классификации в пространстве, определяемом их соответствующими уравнениями. Насколько мне известно, никто точно не показал, что одно ядро всегда лучше справляется с одним типом задачи классификации текста по сравнению с другим.
Следует учитывать, что каждая функция ядра имеет 1 или более параметров, которые необходимо оптимизировать для вашего набора данных, что означает, что, если вы делаете это правильно, у вас должна быть вторая тренировочная коллекция, на которой вы можете исследовать лучшие значения для этих параметров. (Я говорю о второй несдерживаемой коллекции, потому что у вас уже должна быть одна, которую вы используете, чтобы выяснить лучшие входные функции для вашего классификатора.) Некоторое время назад я провел эксперимент, в котором я провел крупномасштабную оптимизацию каждого из эти параметры для простой задачи классификации текста и обнаружили, что каждое ядро, казалось, работало достаточно хорошо, но делал это в разных конфигурациях. Если я правильно помню свои результаты, сигмоид показал лучшие результаты, но сделал это при очень специфических настройках параметров, которые заняли у меня более месяца, чтобы найти мою машину.