Какова связь между SVM и потерей шарнира?

Мы с коллегой пытаемся понять разницу между логистической регрессией и SVM. Очевидно, они оптимизируют различные целевые функции. Является ли SVM таким простым, как сказать, что это дискриминационный классификатор, который просто оптимизирует потерю шарнира? Или это сложнее, чем это? Как векторы поддержки вступают в игру? Что насчет слабых переменных? Почему у вас не может быть глубоких SVM, как у вас нет глубоких нейронных сетей с функциями активации сигмовидной кишки?

svm logistic-regression hinge-loss

— Саймон
источник

Я получил разумный ответ здесь: stats.stackexchange.com/questions/187186/…

— Саймон

Я голосую,

— Мартин Тома

Они обе дискриминационные модели, да. Функция потерь логистической регрессии концептуально является функцией всех точек. Правильно классифицированные точки очень мало добавляют к функции потерь, добавляя больше, если они находятся близко к границе. Поэтому точки вблизи границы более важны для потери и, следовательно, решают, насколько хороша граница.

SVM использует потерю шарнира, которая концептуально делает акцент на граничных точках. Все, что находится дальше ближайших точек, не приводит к потере из-за «шарнира» (максимума) в функции. Эти самые близкие точки - просто векторы поддержки. Следовательно, он фактически сводится к выбору границы, которая создает наибольшее поле - расстояние до ближайшей точки. Теория состоит в том, что граничный случай - это все, что действительно имеет значение для обобщения.

Недостатком является то, что потеря шарнира не дифференцируема, но это просто означает, что требуется больше математики, чтобы узнать, как оптимизировать ее с помощью множителей Лагранжа. Это действительно не обрабатывает случай, когда данные не являются линейно разделимыми. Слабые переменные - это хитрость, которая позволяет четко включить эту возможность в задачу оптимизации.

Вы можете использовать потерю петли с «глубоким обучением», например, http://arxiv.org/pdf/1306.0239.pdf

— Шон Оуэн
источник