На практике причина того, что SVM имеют тенденцию быть устойчивыми к переоснащению, даже в тех случаях, когда число атрибутов превышает количество наблюдений, заключается в том, что он использует регуляризацию. Они являются ключом к тому, чтобы избежать чрезмерной подгонки, заключается в тщательной настройке параметра регуляризации , а в случае нелинейных SVM - тщательном выборе ядра и настройке параметров ядра.C
SVM является приблизительной реализацией ограничения на ошибку обобщения, которое зависит от поля (по существу, расстояние от границы решения до ближайшего шаблона из каждого класса), но не зависит от размерности пространства признаков (поэтому использование трюка с ядром для отображения данных в очень многомерное пространство - неплохая идея, как может показаться). Таким образом, в принципе SVM должны быть очень устойчивы к перегонке, но на практике это зависит от тщательного выбора и параметров ядра. К сожалению, перенастройка также может происходить довольно легко при настройке гиперпараметров, что является моей основной областью исследований, см.C
GC Cawley и NLC Talbot, Предотвращение чрезмерной подгонки при выборе модели с помощью байесовской регуляризации гиперпараметров, Journal of Machine Learning Research, том 8, страницы 841-861, апрель 2007 г. ( www )
а также
GC Cawley и NLC Talbot, Чрезмерная подгонка при выборе модели и последующая систематическая ошибка выбора при оценке производительности, Journal of Machine Learning Research, 2010. Research, vol. 11, с. 2079-2107, июль 2010 г. ( www )
Обе эти статьи используют регрессию гребня ядра, а не SVM, но та же проблема возникает так же легко с SVM (также аналогичные ограничения применяются к KRR, поэтому на практике выбор между ними невелик). Таким образом, SVM в действительности не решают проблему переоснащения, они просто переносят проблему с подбора модели на выбор модели.
Часто возникает искушение облегчить жизнь SVM, выполнив сначала какой-то выбор функций. Это, как правило, усугубляет ситуацию, так как в отличие от SVM, алгоритмы выбора признаков имеют тенденцию проявлять больше соответствия при увеличении количества атрибутов. Если вы не хотите знать, какие атрибуты являются информативными, обычно лучше пропустить шаг выбора объекта и просто использовать регуляризацию, чтобы избежать чрезмерного соответствия данных.
Короче говоря, нет никакой внутренней проблемы с использованием SVM (или другой регуляризованной модели, такой как регрессия гребня, LARS, Лассо, эластичная сетка и т. Д.) Для задачи со 120 наблюдениями и тысячами атрибутов, при условии, что параметры регуляризации настроены правильно .