Да, Регуляризация может использоваться во всех линейных методах, включая как регрессию, так и классификацию. Я хотел бы показать вам, что между регрессией и классификацией нет слишком большой разницы: единственная разница - это функция потерь.
В частности, есть три основных компонента линейного метода: функция потерь, регуляризация, алгоритмы . Где функция потерь плюс регуляризация - это целевая функция в задаче в форме оптимизации, а алгоритм - способ ее решения (целевая функция выпуклая, мы не будем обсуждать в этом посте).
L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
В настройке регуляризации вы упомянули про регуляризацию L1 и L2, есть и другие формы, которые не будут обсуждаться в этом посте.
Поэтому на высоком уровне линейный метод
minimizew ∑x,yL(w⊤x,y)+λh(w)
Если вы замените функцию потерь с настройки регрессии на логистическую потерю, вы получите логистическую регрессию с регуляризацией.
Например, в регрессии гребня, проблема оптимизации
minimizew ∑x,y(w⊤x−y)2+λw⊤w
Если заменить функцию потерь логистической потерей, проблема становится
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
Здесь у вас есть логистическая регрессия с регуляризацией L2.
Вот как это выглядит в игрушечном синтезированном наборе двоичных данных. На левом рисунке - данные с линейной моделью (граница принятия решения). Правый рисунок - контур целевой функции (оси x и y представляют значения для 2 параметров.). Набор данных был сгенерирован из двух гауссов, и мы подгоняем модель логистической регрессии без перехвата, так что есть только два параметра, которые мы можем визуализировать в правой части рисунка.
Синие линии - логистическая регрессия без регуляризации, а черные линии - логистическая регрессия с регуляризацией L2. Синие и черные точки на правом рисунке являются оптимальными параметрами для целевой функции.
λ0
Вот еще один пример с регуляризацией L1.
Обратите внимание, что целью этого эксперимента является попытка показать, как регуляризация работает в логистической регрессии, но не утверждать, что регуляризованная модель лучше.
λλ0
wxyy^=f(x)=w⊤x1
yy∈{−1,1}
y^=w⊤xy^yy^=w⊤x{−1,1}y^
y∈{0,1}
Код можно найти в моем другом ответе здесь.
Есть ли какое-либо интуитивное объяснение того, почему логистическая регрессия не будет работать в случае идеального разделения? И почему добавление регуляризации это исправит?