Я попытаюсь ответить на этот вопрос с помощью логистической регрессии , одного из простейших линейных классификаторов.
Самый простой случай логистической регрессии - это если у нас есть задача двоичной классификации ( и только одна входная функция ( ). В этом случае результат логистической регрессии будет:y∈{0,1})x∈R
y^=σ(w⋅x+b)
где
w и
b оба являются
скалярами . Выходные данные модели
y^∈[0,1] соответствуют вероятности того, что
x будет иметь класс
1 .
Мы попытаемся разбить фразу «линейные классификаторы не разделяют параметры между функциями и классами» на две части. Мы рассмотрим случаи нескольких объектов и нескольких классов отдельно, чтобы увидеть, разделяет ли логистическая регрессия параметры для каких-либо из этих задач:
Распределяют ли линейные классификаторы параметры между функциями?
В этом случае для каждого примера y - скаляр, который принимает двоичные значения (как прежде), а x - вектор длины N (где N - число признаков). Здесь выходные данные представляют собой линейную комбинацию входных признаков (то есть взвешенную сумму этих признаков плюс смещения).
x w N x ⋅ w w i x i
y^=σ(∑iN(wi⋅xi)+b)orσ(w⋅x+b)
,
где и являются векторы длины . Произведение создает скаляр. Как видно из приведенного выше, для каждого входного объекта существует
отдельный вес и эти веса во всех отношениях
независимы . Из этого можно сделать вывод, что
между функциями нет разделения параметров .
xwNx⋅w wixi
Распределяют ли линейные классификаторы параметры между классами?
В этом случае является скаляром, однако является вектором длины (где - количество классов). Чтобы справиться с этим, логистическая регрессия, по существу, создает отдельный выход для каждого из классов. Каждый выход представляет собой скаляр и соответствует вероятности принадлежащего классу .y M M y j M y j ∈ [ 0 , 1 ] x jxyMMyjMyj∈[0,1]xj
y^=w⋅x+b,wherey^=y^1,y^2,...,yM
Самый простой способ думать об этом - это простых независимых логистических регрессий, каждая из которых выдает:M
y^j=σ(wj⋅x+bj)
Из вышесказанного очевидно, что никакие веса не распределяются между различными классами .
многофункциональный и мультикласс :
Комбинируя два приведенных выше случая, мы можем, наконец, достичь наиболее общего случая нескольких объектов и нескольких классов:
у МхNбMW(N×M)
y^=σ(W⋅x+b)
где - вектор с размером , - вектор с размером, равным , - вектор с размером а - матрица с размером .
y^MxNbMW(N×M)
В любом случае, линейные классификаторы не разделяют какие-либо параметры среди объектов или классов .
Чтобы ответить на ваш второй вопрос, линейные классификаторы действительно исходят из предположения о том, что функции должны быть независимыми , однако это не то, что намеревался сказать автор статьи.