Сравнение SVM и логистической регрессии

37

Может кто-нибудь подсказать, когда выбрать SVM или LR? Я хочу понять интуицию, лежащую в основе различий между критериями оптимизации изучения гиперплоскости двух, где соответствующие цели заключаются в следующем:

SVM: попытаться максимизировать разницу между ближайшими векторами поддержки
LR: максимизировать апостериорную вероятность класса

Давайте рассмотрим линейное пространство признаков как для SVM, так и для LR.

Некоторые различия, о которых я уже знаю:

SVM является детерминированным (но мы можем использовать модель Платтса для оценки вероятности), в то время как LR является вероятностным.
Для пространства ядра SVM быстрее (хранит только векторы поддержки)

— user41799
источник

2

Это утверждение неверно: « LR: максимизировать апостериорную вероятность класса ». Логистическая регрессия максимизирует вероятность, а не некоторую апостериорную плотность. Байесовская логистическая регрессия - это отдельная история, но вы должны быть конкретны в этом, если вы на это ссылаетесь.

— Digio

30

Линейные SVM и логистическая регрессия обычно работают сравнительно на практике. Используйте SVM с нелинейным ядром, если у вас есть основания полагать, что ваши данные не будут линейно разделимы (или вам нужно быть более устойчивым к выбросам, чем обычно допускает LR). В противном случае, просто сначала попробуйте логистическую регрессию и посмотрите, как вы поступите с этой более простой моделью. Если логистическая регрессия не удалась, попробуйте SVM с нелинейным ядром, таким как RBF.

РЕДАКТИРОВАТЬ:

Хорошо, давайте поговорим о том, откуда берутся целевые функции.

Логистическая регрессия происходит от обобщенной линейной регрессии. Хорошее обсуждение целевой функции логистической регрессии в этом контексте можно найти здесь: https://stats.stackexchange.com/a/29326/8451

Алгоритм опорных векторов гораздо более геометрически мотивирован . Вместо того, чтобы предполагать вероятностную модель, мы пытаемся найти конкретную оптимальную разделяющую гиперплоскость, где мы определяем «оптимальность» в контексте опорных векторов. У нас нет ничего похожего на статистическую модель, которую мы используем здесь в логистической регрессии, хотя линейный случай даст нам аналогичные результаты: на самом деле это просто означает, что логистическая регрессия делает довольно хорошую работу по созданию классификаторов с «широким запасом», поскольку это все, что пытается сделать SVM (в частности, SVM пытается «максимизировать» разницу между классами).

Я постараюсь вернуться к этому позже и немного углубиться в сорняки, я просто в какой-то мере: p

— Дэвид Маркс
источник

1

Но это все еще не отвечает на мой вопрос о том, какова интуитивная разница в целевых функциях SVM v / s LR, которые заключаются в следующем: (a) SVM: попытаться максимизировать разницу между ближайшими опорными векторами (b) LR: Максимизируйте вероятность апостериорного класса

— user41799

Я имею в виду, это совершенно другой вопрос. Вы спрашиваете о том, когда использовать модели, или что мотивирует форму их целевых функций?

— Дэвид Маркс

1

Меня больше интересует, что мотивирует форму их целевых функций

— user41799

4

Я попытаюсь вернуться к этому позже и немного углубиться в сорняки, я просто как-то в середине чего-то Четыре года спустя ...

— user1717828

23

Изображение показывает разницу между SVM и логистической регрессией и где использовать какой метод

эта картина взята из курса Coursera: «Машинное обучение» Эндрю Н.Г. Его можно найти на седьмой неделе в конце: «Машины опорных векторов - с использованием SVM»

— JSONParser
источник

Под «функциями» подразумевается количество уникальных атрибутов или общее количество уникальных значений, принадлежащих этим атрибутам?

— Ахмедов

Например: в прогнозировании цен на каучук одна особенность - это цена на бензин, другая - погода и т. д.

— JSONParser

На самом деле, изображение ничего не говорит об их различиях ...

— Ян Кукацка

разница может быть неправильной, сравнение слов может быть лучше

— JSONParser

1

LR дает откалиброванные вероятности, которые можно интерпретировать как уверенность в принятии решения.
LR дает нам неограниченную, гладкую цель.
LR можно (прямо) использовать в байесовских моделях.
SVM не наказывают за примеры, для которых правильное решение принимается с достаточной уверенностью. Это может быть хорошо для обобщения.
SVM имеют приятную двойственную форму, предоставляя разреженные решения при использовании трюка с ядром (лучшая масштабируемость)

Посмотрите опорные векторные машины против логистической регрессии, Университет Торонто CSC2515 Кевина Сверски.

— Чанки патхак
источник