Обобщающие оценки на SVM


11

Меня интересуют теоретические результаты для обобщающей способности машин опорных векторов, например, оценки вероятности ошибки классификации и размерности Вапника-Червоненкиса (VC) этих машин. Однако, читая литературу, у меня сложилось впечатление, что некоторые похожие повторяющиеся результаты имеют тенденцию незначительно отличаться от автора к автору, особенно в отношении технических условий, необходимых для выполнения определенной обязанности.

Далее я напомню структуру проблемы SVM и состояние 3 основных результатов обобщения, которые я неоднократно находил в той или иной форме я даю 3 основных ссылки на протяжении всей экспозиции.

Постановка проблемы :

Предположим, у нас есть выборка данных независимых и идентично распределенных (iid) пар где для всех , и . Мы создаем машину опорных векторов (SVM), которая максимизирует минимальный запас между разделяющей гиперплоскостью, определенной как , и и ближайшая точка среди чтобы разделить два класса, определенных и . Мы позволили SVM допустить некоторые ошибки через мягкое поле, введя слабые переменные(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1 -ξ1,,ξn но для простоты обозначений мы игнорируем возможности ядер. Параметры решения и получены путем решения следующей выпуклой квадратичной программы оптимизации:b wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Нас интересует возможность обобщения этой машины.

Вапник-Червоненькис размерность VC :

Первый результат обусловлен (Vapnik, 2000), в котором он ограничивает размерность VC разделяющей гиперплоскости, теорема 5.1. Пусть, у нас есть:R=maxxixi

VCmin((Rm)2,p)+1

Этот результат снова может быть найден в (Burges, 1998), теорема 6. Однако, кажется, что теорема Берджеса более ограничительна, чем тот же результат Вапника, поскольку ему нужно определить специальную категорию классификаторов, известную как классификаторы, допускающие разрывы. к которому принадлежит SVM , чтобы сформулировать теорему.

Границы вероятности ошибок :

В (Vapnik, 2000) теорема 5.2 на стр. 139 дает следующую оценку способности обобщений SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

где - количество опорных векторов SVM. По-видимому, эти результаты снова можно найти в (Burges, 1998), уравнениях (86) и (93) соответственно. Но опять же, Берджес, кажется, отличается от Вапника, поскольку он разделяет компоненты в пределах минимальной функции выше в разных теоремах с разными условиями.nSV

Другой результат, появляющийся в (Vapnik, 2000), стр. 133, заключается в следующем. Предполагая еще раз, что для всех , и позволяя и , мы определяем равным:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

Мы также определяем как число ошибочно классифицированных учебных примеров SVM. Тогда с вероятностью мы можем утверждать, что вероятность того, что тестовый пример не будет правильно разделен гиперплоскостью -margin то есть SVM с полем имеет ограничение:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Однако в (Hastie, Tibshirani and Friedman, 2009), p.438, найден очень похожий результат:

ErrorTestζ

Вывод :

Мне кажется, что между этими результатами есть определенная степень противоречия. С другой стороны, две из этих ссылок, хотя и канонические в литературе по SVM, начинают немного устареть (1998 и 2000), особенно если учесть, что исследование алгоритма SVM началось в середине девяностых.

Мои вопросы:

  • Эти результаты все еще действительны сегодня, или они оказались неверными?
  • Были ли получены более плотные границы с относительно свободными условиями с тех пор? Если да, то кем и где я могу их найти?
  • Наконец, есть ли справочный материал, который обобщает основные результаты обобщения о SVM?

Рекомендации :

Burges, JC (1998). «Учебное пособие по машинам опорных векторов для распознавания образов», Data Mining и Knowledge Discovery , 2: 121-167

Хасти Т., Тибширани Р. и Фридман Дж. (2009). Элементы статистического обучения , 2-е издание, Springer

Вапник В.Н. (1998). Теория статистического обучения , 1-е издание, John Wiley & Sons

Вапник В.Н. (1999). «Обзор теории статистического обучения», IEEE транзакции по нейронным сетям , 10 (5): 988-999

Вапник В.Н. (2000). Природа теории статистического обучения , 2-е издание, Springer


ссылка, обобщающая современные (на 2008 г.) границы риска для SVM: «Машины опорных векторов» (Ingo Steinwart, Andreas Christmann, Springer 2008) .
зарегистрируйтесь

Ответы:


3

Я не знаю литературы, на которую вы ссылаетесь подробно, но я думаю, что исчерпывающее резюме границ обобщения, которое должно быть актуальным, можно найти в Boucheron et al. (2004) (Ссылка: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Канберра-Австралия-2-14-2003-Тюбинген-Германия-Август-4-16-2003-Revised-Lectures.pdf # page = 176 )

Я нарисую часть SVM, связанную в следующем, оставляя без подробностей и доказательств.

Прежде чем подробно остановиться на границах SVM, мы должны понять, чего пытаются достичь границы обобщения.

Сначала предположим, что истинная вероятность известна, тогда наилучшим из возможных классификаторов будет классификатор Байеса, т.е. case P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

Цель теории статистического обучения в настоящее время - найти разницу между классификатором класса (например, SVM) и байесовский классификатор, то есть Заметим , что является ожидаемые потери приведены данные и является наилучшим возможным классификатор в модели класса . Термин называется ошибкой оценки и часто является фокусом, поскольку его можно ограничить гораздо проще, чем ошибка аппроксимации (другой термин). Я также опущу здесь ошибку аппроксимации.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

Ошибка оценки может быть дополнительно разложена с помощью Теперь это можно ограничить двумя шагами:Z

Z=ZEZ+EZ.
  1. Связать используя неравенство МакдиармидаZEZ

  2. Связать со сложностью РадемахераEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Используя неравенство МакДиармидса, можно показать, что если функция потерь находится в интервале не более , шаг первого результата приводит к ограничению где - уровень достоверности. Для второго шага мы можем показать, что Если у вас есть дискретная функция потерь, то есть не липшицева, такая как 0-1 -Потеря, вам понадобится VC-измерение для дальнейшего ограничения сложности Радемахера. Однако для функций L-Lipchitz, таких как потеря шарнира, это может быть дополнительно ограничено гдеB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λобозначает регуляризатор. Поскольку для шарнирных потерь и (докажем с помощью неравенства Гоши-Шварца) это еще больше упрощается. Наконец, собрав все результаты вместе, мы можем ограничить L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.