Возможно ли градиентное спуск для SVM с ядром (если так, почему люди используют квадратичное программирование)?

21

Почему люди используют методы квадратичного программирования (например, SMO) при работе с SVM с ядром? Что не так с градиентным спуском? Это невозможно использовать с ядрами или просто слишком медленно (и почему?).

Здесь немного больше контекста: пытаясь немного лучше понять SVM, я использовал Gradient Descent для обучения линейного классификатора SVM, используя следующую функцию стоимости:

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

Я использую следующие обозначения:

$\mathbf{w}$ - это весовые характеристики модели, а- ее параметр смещения. $b$
$\mathbf{x}^{(i)}$ - вектор элементов обучающего экземпляра. $i^\text{th}$
$y^{(i)}$ - целевой класс (-1 или 1) для экземпляра . $i^\text{th}$
$m$ - количество обучающих экземпляров.
$C$ - гиперпараметр регуляризации.

Я вывел (суб) вектор градиента (относительно и ) из этого уравнения, и Gradient Descent работал просто отлично. $\mathbf{w}$ $b$

Теперь я хотел бы заняться нелинейными задачами. Могу ли я просто заменить все точечные продукты на в функции стоимости, где - функция ядра (например, RBF Гаусса, ), затем используйте исчисление для вывода (суб) градиентный вектор и приступить к градиентному спуску? $\mathbf{u}^t \cdot \mathbf{v}$ $K(\mathbf{u}, \mathbf{v})$ $K$ $K(\mathbf{u}, \mathbf{v}) = e^{-\gamma \|\mathbf{u} - \mathbf{v}\|^2}$

Если это слишком медленно, то почему? Функция стоимости не выпуклая? Или это потому, что градиент изменяется слишком быстро (он не является непрерывным по Липшицу), поэтому алгоритм продолжает перепрыгивать через долины во время спуска, поэтому он сходится очень медленно? Но даже тогда, как это может быть хуже, чем временная сложность квадратичного программирования, которая равна ? Если это вопрос локальных минимумов, не может ли стохастик GD с имитацией отжига преодолеть их? $O({n_\text{samples}}^2 \times n_\text{features})$

svm kernel-trick gradient-descent

— MiniQuark
источник

6

Положим так, чтобы и , причем , где является отображением исходной входной матрицы, $\mathbf w = \phi(\mathbf x)\cdot \mathbf u$ $\mathbf w^t \phi(\mathbf x)=\mathbf u^t \cdot \mathbf K$ $\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$ $\mathbf K = \phi(\mathbf x)^t\phi(\mathbf x)$ $\phi(x)$ $\mathbf x$ , Это позволяет решить SVM посредством первичной формулировки. Используя вашу запись для потери:

J (w, b) = C \sum_{i = 1}^{m} m a x (0, 1 - y^{(i)} (u^{t} \cdot K^{(i)} + b)) + \frac{1}{2} u^{t} \cdot K \cdot u

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{u}^t \cdot \mathbf{K}^{(i)} + b)\right)} + \dfrac{1}{2} \mathbf{u}^t \cdot \mathbf{K} \cdot \mathbf{u}$

представляет собойматрицу , а представляет собойматрицу . Ни один не бесконечен. $\mathbf{K}$ $m \times m$ $\mathbf{u}$ $m \times 1$

Действительно, двойственное обычно быстрее решить, но у первичного также есть свои преимущества, такие как приближенные решения (которые не гарантированы в двойственной формулировке).

Теперь, почему дуал намного более заметен, не совсем понятно: [1]

Исторические причины, по которым большинство исследований в последнее десятилетие были посвящены двойной оптимизации, неясны . Мы полагаем, что это потому, что SVM были впервые введены в их формулировку жесткого поля [Boser et al., 1992], для которой двойная оптимизация (из-за ограничений) кажется более естественной. В целом, однако, SVM с мягким запасом предпочтительнее, даже если данные обучения являются разделяемыми: граница принятия решения является более надежной, поскольку учитывается больше точек обучения [Chapelle et al., 2000]

Chapelle (2007) утверждает, что временная сложность как первичной, так и двойной оптимизации составляет , наихудший случай - , но они проанализировали квадратичные и приблизительные потери шарнира, поэтому не являются собственными потеря шарнира, поскольку его нельзя дифференцировать с помощью метода Ньютона. $\mathcal{O}\left(nn_{sv} + n_{sv}^3\right)$ $\mathcal{O}\left(n^3\right)$

_{[1] Chapelle, O. (2007). Обучение векторной машины поддержки в Primal. Нейронные вычисления, 19 (5), 1155-1178.}

— поджигатель
источник

1

+1 Не могли бы вы также расширить временную сложность

— seanv507

@ seanv507 спасибо, действительно, я должен был обратиться к этому, я скоро обновлю этот ответ.

— Firebug

4

Если мы применим преобразование ко всем входным весовым векторам ( ), мы получим следующую функцию стоимости: $\phi$ $\mathbf{x}^{(i)}$

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

Трюк с ядром заменяет на . Так как весовой вектор является не трансформировали, ядро трик не может быть применен к функции затрат выше . $\phi(\mathbf{u})^t \cdot \phi(\mathbf{v})$ $K(\mathbf{u}, \mathbf{v})$ $\mathbf{w}$

Вышеуказанная функция стоимости соответствует основной форме цели SVM:

$\underset{\mathbf{w}, b, \mathbf{\zeta}}\min{C \sum\limits_{i=1}^m{\zeta^{(i)}} + \dfrac{1}{2}\mathbf{w}^t \cdot \mathbf{w}}$

$y^{(i)}(\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b) \ge 1 - \zeta^{(i)})$ $\zeta^{(i)} \ge 0$ $i=1, \cdots, m$

Двойная форма является:

$\underset{\mathbf{\alpha}}\min{\dfrac{1}{2}\mathbf{\alpha}^t \cdot \mathbf{Q} \cdot \mathbf{\alpha} - \mathbf{1}^t \cdot \mathbf{\alpha}}$

$\mathbf{y}^t \cdot \mathbf{\alpha} = 0$ $0 \le \alpha_i \le C$ $i = 1, 2, \cdots, m$

$\mathbf{1}$ $\mathbf{Q}$ $m \times m$ $Q_{ij} = y^{(i)} y^{(j)} \phi(\mathbf{x}^{(i)})^t \cdot \phi(\mathbf{x}^{(j)})$

$Q_{ij}$

$Q_{ij} = y^{(i)} y^{(j)} K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)})$

Таким образом, уловка ядра может быть использована только в двойственной форме задачи SVM (плюс некоторые другие алгоритмы, такие как логистическая регрессия).

Теперь вы можете использовать готовые библиотеки для квадратичного программирования, чтобы решить эту проблему, или использовать множители Лагранжа для получения неограниченной функции (функция двойной стоимости), а затем искать минимум с помощью градиентного спуска или любого другого метода оптимизации. Одним из наиболее эффективных подходов является алгоритм SMO, реализованный libsvmбиблиотекой (для SVM с ядром).

— MiniQuark
источник

1

Я не уверен, почему вы отметили свой ответ вики-сообщества. Это похоже на совершенно правильный ответ на ваш вопрос.

— Sycorax сообщает восстановить Monica

Спасибо @GeneralAbrial. Я пометил свой ответ как Вики сообщества, чтобы избежать подозрений в том, что я знал ответ, прежде чем задавать вопрос.

— MiniQuark

1

Вы всегда должны делать то, что считаете правильным, но совершенно кошерно задавать вопросы и отвечать на них.

— Sycorax сообщает восстановить Monica

w = ϕ (x) \cdot u

$\mathbf w = \phi(x)\cdot \mathbf u$

w^{t} ϕ (x) = u \cdot K

$\mathbf w^t \phi(x)=\mathbf u \cdot \mathbf K$

w^{t} w = u^{t} K u

$\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$

K = ϕ^{t} ϕ

$\mathbf K = \phi^t\phi$

u

$\mathbf u$

2

Я могу ошибаться, но я не понимаю, как мы можем заменить точечные продукты ядрами, не превращая это в двойственную проблему.

$x$ $\phi(x)$
$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$
$\phi(\mathbf{x}^{(i)})$ $\mathbf{w}$

Кажется трудным оптимизировать вектор бесконечных измерений, используя градиентный спуск напрямую.

Обновленный
ответ Firebug дает возможность заменить точечные продукты ядрами в первичной формулировке.

— dontloo
источник