Почему термин смещения в SVM оценивается отдельно, а не в дополнительном измерении в векторе признаков?

Оптимальная гиперплоскость в SVM определяется как:

w \cdot x + b = 0,

$\mathbf w \cdot \mathbf x+b=0,$

где представляет порог. Если у нас есть некоторое отображение которое отображает входное пространство на некоторое пространство , мы можем определить SVM в пространстве , где оптимальной гиперплоскостью будет: $b$ $\mathbf \phi$ $Z$ $Z$

w \cdot ϕ (x) + b = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0.$

Однако мы всегда можем определить отображение так, чтобы , , и тогда оптимальная гиперплоскость будет определяться как $\phi$ $\phi_0(\mathbf x)=1$ $\forall \mathbf x$

w \cdot ϕ (x) = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)=0.$

Вопросы:

Почему во многих работах когда они уже имеют отображение и оценивают параметры и theshold отдельно? $\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0$ $\phi$ $\mathbf w$ $b$
Есть ли какая-то проблема для определения SVM как и оцениваем только вектор параметров , предполагая, что мы определяем ?
$min_{w} | | w | |^{2}$ $\min_{\mathbf w} ||\mathbf w ||^2$ $s . t . y_{n} w \cdot ϕ (x_{n}) \geq 1, \forall n$ $s.t. \ y_n \mathbf w \cdot \mathbf \phi(\mathbf x_n) \geq 1, \forall n$ $\mathbf w$ $\phi_0(\mathbf x)=1, \forall\mathbf x$
Если определение SVM из вопроса 2. возможно, у нас будет $\mathbf w = \sum_{n} y_n\alpha_n \phi(\mathbf x_n)$ а порог будет просто $b=w_0$ , который мы не будем рассматривать отдельно. Таким образом , мы никогда не будем использовать формулу , как $b=t_n-\mathbf w\cdot \phi(\mathbf x_n)$ для оценки $b$ от некоторой поддержки вектора $x_n$ . Правильно?

svm threshold

— Деяна
источник

Связанный: причина не сокращения термина смещения (перехвата) в регрессии .

— говорит амеба, восстанови Монику

Ответы:

Почему уклон важен?

Член смещения действительно является специальным параметром в SVM. Без этого классификатор всегда будет проходить источник. Таким образом, SVM не дает вам разделительную гиперплоскость с максимальным запасом, если она не проходит через начало координат, если у вас нет смещения. $b$

Ниже приведена визуализация проблемы смещения. SVM, обученный с (без) термином смещения, показан слева (справа). Хотя оба SVM обучаются на одних и тех же данных , они выглядят очень по-разному.

Почему смещение следует рассматривать отдельно?

Как отметил Бен DAI , термин смещения следует рассматривать отдельно из-за регуляризации. SVM максимизирует размер поля, который составляет (или зависимости от того, как вы его определяете). $b$ $\frac{1}{||w||^2}$ $\frac{2}{||w||^2}$

Максимизация разницы аналогична минимизации . Это также называется термином регуляризации и может быть интерпретировано как мера сложности классификатора. Однако вы не хотите упорядочивать термин смещения, потому что смещение сдвигает классификационные оценки вверх или вниз на одну и ту же величину для всех точек данных . В частности, смещение не меняет форму классификатора или размер его поля. Следовательно, ... $||w||^2$

термин смещения в SVM НЕ должен быть упорядочен.

На практике, однако, легче просто вставить смещение в вектор признаков, а не рассматривать его как особый случай.

Примечание. При перемещении смещения к функции объекта лучше всего зафиксировать этот размер вектора объекта большим числом, например, , чтобы минимизировать побочные эффекты регуляризации смещения. $\phi_0(x) = 10$

— Sobi
источник

Какую программу вы использовали для создания графиков из любопытства?

— d0rmLife

@ d0rmLife: это всего лишь мультфильм, который я сделал с помощью MS PowerPoint!

— Соби

+1. Связанный: причина не сокращения термина смещения (перехвата) в регрессии .

— говорит амеба, восстанови Монику

Иногда люди просто пропускают перехват в SVM, но я думаю, что причина может заключаться в том, что мы можем штрафовать перехват, чтобы пропустить его. т.е.

мы можем изменить данные и , так что опустим перехватывать Как вы Тем не менее, подобная техника может быть использована в версии ядра. $\mathbf{\hat{x}} = (\mathbf{1}, \mathbf{x})$ $\mathbf{\hat{w}} = (w_{0}, \mathbf{w}^{T})^{T}$

x w + b = \hat{x} \hat{w}

$\mathbf{x} ~ \mathbf{w} + b = \mathbf{\hat{x}} ~ \mathbf{\hat{w}}$

Однако, если мы поместим перехват в весах, целевая функция будет немного отличаться от исходной. Вот почему мы называем «наказывать».

— Бен Дай
источник

Я согласен, что у нас будут разные объективные функции. Случай, когда мы не включаем пересечение в параметры, приводит к задаче оптимизации подверженной ограничению, в то время как в противном случае мы имеем проблему . Но я не понимаю, почему панилизующий перехват более или менее важен для модели.

b

$b$

min_{w, b} | | w | |^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2$

min_{w, b} | | w | |^{2} + b^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2 + b^2$

— Деян

Что мне приходит в голову, так это то, что главная причина, по которой мы пересекаемся, может быть, потому что в двойной задаче перехват позволяет нам иметь ограничение что важно для применения алгоритма SMO, и если у нас нет перехвата, будет иметь только константы и в этом случае двойная оптимизация будет сложнее.

\sum α_{n} t_{n} = 0

$\sum \alpha_n t_n=0$

α_{n} \geq 0

$\alpha_n\geq 0$

— Деян

@Petar Одна вещь, которую я знаю, это то, что она становится мощной, когда мы рассматриваем двойственную форму этой модели. Этот метод устранит линейное ограничение.

— Бен Дай

@Petar Я не думаю, что двойная оптимизация будет сложнее, так как у нас более простая область.

— Бен Дай

@Petar Для конкретного алгоритма это может быть сложнее. Тем не менее, математически, я думаю, что домен коробки может быть лучше

— Бен Дай

В дополнение к причинам, указанным выше, расстояние от точки до гиперплоскости, определенной наклоном и точкой равно Вот как Концепция маржи в SVM перенесена. Если вы измените , чтобы включить термин перехватывать , норму будет зависеть от размера перехвата, что приведет к SVM для оптимизации к небольшому перехвату, который не имеет смысла во многих случаях. $x$ $\theta$ $b$

\frac{| θ^{T} x + b |}{| | θ | |}

$\frac{|\theta^T x + b|}{||\theta||}$

θ

$\theta$

b

$b$

θ

$\theta$

— charlieh_7
источник

Даже при том, что расстояние от точки до гиперплоскости правильное и объяснение выглядит интересным, я не вижу корреляции между этой формулой и тренировочными SVM. Можете ли вы объяснить, как эта формула используется во время обучения, или предоставить дополнительную ссылку?

— Деян

@Dejan Идея SVM состоит в том, чтобы найти гиперплоскость, которая максимизирует минимальный запас для набора данных. Поля - это «расстояние» ( без принятия абсолютного значения, которое указывает на достоверность, которую классификатор имеет в отношении своей гипотезы) этой точки до гиперплоскости раз его метка, которая находится в . Результатом является , который является положительным, если выходные данные классификатора соответствуют метке, и отрицательным в противном случае. На практике мы просто масштабируем нашу модель так, чтобы минимальный запас для набора данных был .

\frac{θ^{T} x + b}{| | θ | |}

$\frac{\theta^T x + b}{||\theta||}$

{- 1, 1}

$\{-1, 1\}$

\frac{y (θ^{T} x + b)}{| | θ | |}

$\frac{y(\theta^T x + b)}{||\theta||}$

\frac{1}{| | θ | |}

$\frac{1}{||\theta||}$

— charlieh_7

@Dejan вы можете найти более подробную информацию в заметках Эндрю Нга: cs229.stanford.edu/notes/cs229-notes3.pdf

— charlieh_7