Этот вопрос очень интересный. Я не знаю точную причину, но я думаю, что следующая причина может быть использована для объяснения использования экспоненциальной функции. Этот пост вдохновлен статистической механикой и принципом максимальной энтропии.
Я объясню это, используя пример с изображениями, которые состоят из изображений из класса , изображений из класса , ... и изображений из класса . Затем мы предполагаем, что наша нейронная сеть смогла применить нелинейное преобразование к нашим изображениям, так что мы можем назначить «энергетический уровень» для всех классов. Мы предполагаем, что эта энергия имеет нелинейный масштаб, который позволяет линейно разделять изображения.Nn1C1n2C2nKCKEk
Средняя энергия связана с другими энергиями следующим соотношением
E¯EkNE¯=∑k=1KnkEk.(∗)
В то же время мы видим, что общее количество изображений можно рассчитать как следующую сумму
N=∑k=1Knk.(∗∗)
Основная идея принципа максимальной энтропии состоит в том, что количество изображений в соответствующих классах распределяется таким образом, что число возможных комбинаций для данного распределения энергии максимизируется. Проще говоря, система не очень вероятно перейдет в состояние, в котором у нас есть только класс она также не перейдет в состояние, в котором у нас одинаковое количество изображений в каждом классе. Но почему это так? Если бы все изображения были в одном классе, система имела бы очень низкую энтропию. Второй случай также будет очень неестественной. Более вероятно, что у нас будет больше изображений с умеренной энергией и меньше изображений с очень высокой и очень низкой энергией.n1
Энтропия увеличивается с числом комбинаций, в которых мы можем разделить изображений на классы изображений , , ..., с соответствующей энергией. Это число комбинаций задается коэффициентом полиномаNn1n2nK
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
Мы постараемся максимизировать это число, предполагая, что у нас бесконечно много изображений . Но его максимизация имеет также ограничения равенства и . Этот тип оптимизации называется ограниченной оптимизацией. Мы можем решить эту проблему аналитически, используя метод множителей Лагранжа. Мы вводим множители Лагранжа и для ограничений на равенство и вводим функцию Лагранжа .N→∞(∗)(∗∗)βαL(n1,n2,…,nk;α,β)
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
Поскольку мы предполагали, что мы также можем принять и использовать приближение Стирлинга для факториала.N→∞nk→∞
lnn!=nlnn−n+O(lnn).
Обратите внимание, что это приближение (первые два слагаемых) является только асимптотическим, это не означает, что это приближение будет сходиться кдля .lnn!n→∞
Частная производная функции Лагранжа по приведет кnk~
∂L∂nk~=−lnnk~−1−α+βEk~.
Если мы установим эту частную производную на ноль, мы можем найти
nk~=exp(βEk~)exp(1+α).(∗∗∗)
Если мы поместим это обратно в мы можем получить(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
Если мы поместим это обратно в мы получим что-то, что должно напомнить нам о функции softmax(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
Если мы определим как вероятность класса помощью мы получим нечто, действительно похожее на функцию softmaxnk~/NCk~pk~
pk~=exp(βEk~)∑Kk=1exp(βEk).
Следовательно, это показывает нам, что функция softmax является функцией, максимизирующей энтропию при распределении изображений. С этого момента имеет смысл использовать это как распределение изображений. Если мы установим мы точно получим определение функции softmax для вывода .βEk~=wTkxkth