Задачи классификации текста имеют тенденцию быть довольно многомерными (много функций), а задачи высокой размерности, вероятно, будут линейно разделимыми (поскольку вы можете разделить любые точки d + 1 в d-мерном пространстве с помощью линейного классификатора, независимо от того, как точки помечены). Таким образом, линейные классификаторы, будь то регрессия гребня или SVM с линейным ядром, скорее всего, преуспеют. В обоих случаях параметр гребня или C для SVM (как упоминает tdc +1) контролируют сложность классификатора и помогают избежать перевыбора, разделяя шаблоны каждого класса большими полями (т. Е. Поверхность решения проходит вниз по середина разрыва между двумя наборами точек). Однако, чтобы получить хорошую производительность, параметры гребня / регуляризации должны быть должным образом настроены (я использую перекрестную проверку без выходных, так как это дешево).
Тем не менее, причина того, что регрессия гребня работает хорошо, заключается в том, что нелинейные методы слишком мощные, и их трудно избежать. Может существовать нелинейный классификатор, который дает лучшую производительность обобщения, чем лучшая линейная модель, но слишком сложно оценить эти параметры, используя конечную выборку обучающих данных, которую мы имеем. На практике, чем проще модель, тем меньше у нас проблем с оценкой параметров, поэтому меньше склонностей к переоснащению, поэтому мы получаем лучшие результаты на практике.
Еще одна проблема - выбор признаков, регрессия гребня позволяет избежать переоснащения за счет регуляризации весов, чтобы они оставались небольшими, а выбор модели прост, поскольку вам нужно только выбрать значение одного параметра регрессии. Если вы попытаетесь избежать чрезмерной подгонки, выбрав оптимальный набор функций, то выбор модели станет трудным, так как существует определенная степень свободы (своего рода) для каждой функции, которая позволяет переопределить критерий выбора функции, и вы в конечном итоге набор функций, который является оптимальным для этой конкретной выборки данных, но который дает плохую производительность обобщений. Поэтому невыполнение выбора функций и использование регуляризации часто может дать лучшую прогнозирующую производительность.
Я часто использую Bagging (формирую комитет моделей, обученных на начальных выборках из обучающего набора) с моделями регрессии гребня, что часто дает улучшение производительности, и, поскольку все модели линейны, вы можете объединить их в единую линейную модель. Таким образом, производительность не снижается.