Вот одна из причин, почему двойная формулировка привлекательна с точки зрения численной оптимизации. Вы можете найти подробности в следующей статье :
Hsieh, C.-J., Chang, K.-W., Lin, C.-J., Keerthi, SS, и Sundararajan, S., «Метод двухкоординатного спуска для линейного SVM большой шкалы», Труды 25-я Международная конференция по машинному обучению, Хельсинки, 2008.
Двойная формулировка включает в себя одно ограничение аффинного равенства и n связанных ограничений.
1. Ограничение аффинного равенства можно «исключить» из двойной формулировки.
Это можно сделать, просто взглянув на ваши данные в R ^ (d + 1) через вложение R ^ d в R ^ (d + 1), повторяя добавление одной координаты «1» к каждой точке данных, то есть R ^ d ----> R ^ (d + 1): (a1, ..., ad) | ---> (a1, ..., ad, 1).
Делая это для всех точек в обучающем наборе, переделывается проблема линейной отделимости в R ^ (d + 1) и устраняется постоянный член w0 из вашего классификатора, что, в свою очередь, устраняет ограничение аффинного равенства из двойственного.
2. По пункту 1 двойственное можно легко привести как выпуклую квадратичную оптимизационную задачу, ограничения которой являются только связанными ограничениями.
3. Теперь двойная задача может быть эффективно решена, т. Е. С помощью алгоритма спуска по двойной координате, который дает эпсилон-оптимальное решение в O (log (1 / epsilon)).
Это сделано, отмечая, что исправление всех альф, кроме одного, приводит к решению в закрытой форме. Затем вы можете циклически перебирать все альфы (например, выбирать один наугад, фиксировать все остальные альфы, вычислять решение в закрытой форме). Можно показать, что таким образом вы получите почти оптимальное решение «довольно быстро» (см. Теорему 1 в вышеупомянутой статье).
Есть много других причин, по которым двойная задача привлекательна с точки зрения оптимизации, некоторые из которых используют тот факт, что она имеет только одно ограничение аффинного равенства (остальные ограничения являются связанными ограничениями), в то время как другие используют наблюдение, которое при решении двойной проблемы "часто большинство альфа-каналов" равны нулю (ненулевые альфа-значения, соответствующие опорным векторам).
Вы можете получить хороший обзор вопросов численной оптимизации для SVM из презентации Стивена Райта на семинаре по вычислительному обучению (2009).
PS: я новичок здесь. Извиняюсь за то, что не умею использовать математические обозначения на этом сайте.