Разница между ep-SVR и nu-SVR (и методом наименьших квадратов SVR)

11

Я пытаюсь выяснить, какой SVR подходит для такого рода данных.

Я знаю 4 типа СВР:

эпсилон
ню
наименьших квадратов и
линейно.

Я понимаю, что линейный SVR более или менее похож на лассо с L1 Reg, но в чем разница между оставшимися 3 методами?

regression svm

11

В -SVR параметр используется для определения доли числа векторов поддержки, которые вы хотите сохранить в своем решении, по отношению к общему количеству выборок в наборе данных. В -SVR параметр вводится в постановку задачи оптимизации и оценивается автоматически (оптимально) для вас. $\nu$ $\nu$ $\nu$ $\epsilon$

Однако в -SVR вы не можете контролировать, сколько векторов данных из набора данных станут опорными векторами, их может быть несколько, может быть много. Тем не менее, вы будете иметь полный контроль над тем, сколько ошибок вы допустите для вашей модели, и все, что находится за пределами указанного значения будет оштрафовано пропорционально , который является параметром регуляризации. $\epsilon$ $\epsilon$ $C$

В зависимости от того, что я хочу, я выбираю между двумя. Если я действительно отчаянно нуждаюсь в небольшом решении (меньшее количество векторов поддержки), я выбираю -SVR и надеюсь получить приличную модель. Но если я действительно хочу контролировать количество ошибок в моей модели и стремиться к лучшей производительности, я выбираю -SVR и надеюсь, что модель не слишком сложна (много векторов поддержки). $\nu$ $\epsilon$

— Пабло Ривас
источник

5

Разница между -SVR и -SVR заключается в параметризации проблемы обучения. Оба используют тип потери шарнира в функции стоимости. Параметр в -SVM можно использовать для управления количеством опорных векторов в результирующей модели. При соответствующих параметрах та же проблема решена. ¹ $\epsilon$ $\nu$ $\nu$ $\nu$

SVR наименьших квадратов отличается от двух других, используя квадратные остатки в функции стоимости вместо потери шарнира.

¹ : С.-С. Чанг и С.-Дж. Лин. Тренинг -поддержка векторной регрессии: теория и алгоритмы $\nu$ . Нейронные вычисления, 14 (8): 1959-1977, 2002.

— Марк Клазен
источник

Спасибо за ваш ответ Марк. Итак, можем ли мы выделить подходящий метод на основе имеющегося у нас набора данных? Если да, можете ли вы дать мне несколько советов? У меня 40000 образцов с 200 различными выходами. Так что это можно представить как 200 наборов из 200 уникальных образцов. Входные данные для всех 40000 различны, только выходные данные уникальны для 200 выборок.

— Шарат Чандра

0

Мне нравятся ответы Пабло и Марка. Еще один момент:

В статье, цитируемой Марком, написано (раздел 4)

«Мотивация -SVR заключается в том, что может быть нелегко определить параметр . Следовательно, здесь нас интересует возможный диапазон . Как и следовало ожидать, результаты показывают, что связан с целевыми значениями . $\nu$ $\epsilon$ $\epsilon$ $\epsilon$ $y$

[...]

Поскольку на эффективный диапазон влияют целевые значения , способ решить эту проблему для -SVM состоит в масштабировании целевых значений перед тренировкой данных. Например, если все целевые значения масштабируются до , то эффективный диапазон будет равен , так же, как и у . Тогда может быть проще выбрать . " $\epsilon$ $y$ $\epsilon$ $[-1,+1]$ $\epsilon$ $[0, 1]$ $\nu$ $\epsilon$

Это заставляет меня думать, что проще масштабировать целевые переменные и использовать -SVR, чем пытаться решить, использовать ли или SVR. $\epsilon$ $\epsilon -$ $\nu -$

Что вы думаете?

— spec3
источник