Я понимаю, что SVM очень похож на логистическую регрессию (LR), то есть взвешенная сумма признаков передается в сигмовидную функцию, чтобы получить вероятность принадлежности к классу, но вместо кросс-энтропийной (логистической) потери Функция тренировки выполняется с использованием потери шарнира. Преимущество использования потери шарнира состоит в том, что можно делать различные числовые приемы, чтобы сделать ядрирование более эффективным. Недостатком, однако, является то, что полученная модель имеет меньше информации, чем могла бы иметь соответствующая модель LR. Так, например, без ядра (с использованием линейного ядра) граница принятия решения SVM все еще будет в том же месте, где LR выдаст вероятность 0,5, НО нельзя сказать, насколько быстро вероятность принадлежности к классу уменьшается от граница принятия решения.
Мои два вопроса:
- Верна ли моя интерпретация выше?
- Как использование потери шарнира делает неверным интерпретацию результатов SVM как вероятностей?