Меня интересуют теоретические результаты для обобщающей способности машин опорных векторов, например, оценки вероятности ошибки классификации и размерности Вапника-Червоненкиса (VC) этих машин. Однако, читая литературу, у меня сложилось впечатление, что некоторые похожие повторяющиеся результаты имеют тенденцию незначительно отличаться от автора к автору, особенно в отношении технических условий, необходимых для выполнения определенной обязанности.
Далее я напомню структуру проблемы SVM и состояние 3 основных результатов обобщения, которые я неоднократно находил в той или иной форме я даю 3 основных ссылки на протяжении всей экспозиции.
Постановка проблемы :
Предположим, у нас есть выборка данных независимых и идентично распределенных (iid) пар где для всех , и . Мы создаем машину опорных векторов (SVM), которая максимизирует минимальный запас между разделяющей гиперплоскостью, определенной как , и и ближайшая точка среди чтобы разделить два класса, определенных и . Мы позволили SVM допустить некоторые ошибки через мягкое поле, введя слабые переменные - но для простоты обозначений мы игнорируем возможности ядер. Параметры решения и получены путем решения следующей выпуклой квадратичной программы оптимизации:b ∗
Нас интересует возможность обобщения этой машины.
Вапник-Червоненькис размерность :
Первый результат обусловлен (Vapnik, 2000), в котором он ограничивает размерность VC разделяющей гиперплоскости, теорема 5.1. Пусть, у нас есть:
Этот результат снова может быть найден в (Burges, 1998), теорема 6. Однако, кажется, что теорема Берджеса более ограничительна, чем тот же результат Вапника, поскольку ему нужно определить специальную категорию классификаторов, известную как классификаторы, допускающие разрывы. к которому принадлежит SVM , чтобы сформулировать теорему.
Границы вероятности ошибок :
В (Vapnik, 2000) теорема 5.2 на стр. 139 дает следующую оценку способности обобщений SVM:
где - количество опорных векторов SVM. По-видимому, эти результаты снова можно найти в (Burges, 1998), уравнениях (86) и (93) соответственно. Но опять же, Берджес, кажется, отличается от Вапника, поскольку он разделяет компоненты в пределах минимальной функции выше в разных теоремах с разными условиями.
Другой результат, появляющийся в (Vapnik, 2000), стр. 133, заключается в следующем. Предполагая еще раз, что для всех , и позволяя и , мы определяем равным:
Мы также определяем как число ошибочно классифицированных учебных примеров SVM. Тогда с вероятностью мы можем утверждать, что вероятность того, что тестовый пример не будет правильно разделен гиперплоскостью -margin то есть SVM с полем имеет ограничение:
Однако в (Hastie, Tibshirani and Friedman, 2009), p.438, найден очень похожий результат:
Вывод :
Мне кажется, что между этими результатами есть определенная степень противоречия. С другой стороны, две из этих ссылок, хотя и канонические в литературе по SVM, начинают немного устареть (1998 и 2000), особенно если учесть, что исследование алгоритма SVM началось в середине девяностых.
Мои вопросы:
- Эти результаты все еще действительны сегодня, или они оказались неверными?
- Были ли получены более плотные границы с относительно свободными условиями с тех пор? Если да, то кем и где я могу их найти?
- Наконец, есть ли справочный материал, который обобщает основные результаты обобщения о SVM?
Рекомендации :
Вапник В.Н. (1998). Теория статистического обучения , 1-е издание, John Wiley & Sons
Вапник В.Н. (2000). Природа теории статистического обучения , 2-е издание, Springer