Фактически они эквивалентны в том смысле, что одно может быть преобразовано в другое.
Предположим, что ваши данные представлены вектором произвольной размерности, и вы создали для него двоичный классификатор, используя аффинное преобразование, за которым следует softmax:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Давайте преобразуем его в эквивалентный двоичный классификатор, который использует сигмоид вместо softmax. Прежде всего, мы должны решить, какова вероятность того, что мы хотим, чтобы сигмоид выводил (который может быть для класса или ). Этот выбор абсолютно произвольный, и поэтому я выбираю класс . Тогда мой классификатор будет иметь вид:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Классификаторы эквивалентны, если вероятности одинаковы, поэтому мы должны наложить:
σ(z′)=softmax(z0)
Замена , и их выражениями в терминах и и выполнения некоторых простых Алгебраические манипуляции, вы можете проверить, что равенство выше имеет место тогда и только тогда, когда и определены как:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.