В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?
В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?
Ответы:
С точки зрения оптимизации он обладает некоторыми хорошими свойствами с точки зрения дифференцируемости. Для многих проблем машинного обучения это хорошо подходит для классификации 1-из-N.
С точки зрения глубокого обучения. Можно также утверждать, что теоретически использование глубокой сети с классификатором softmax сверху может представлять любую функцию вероятности N-класса в пространстве признаков, поскольку MLP обладают свойством универсальной аппроксимации .
Softmax также является обобщением логистической сигмовидной функции и, следовательно, несет свойства сигмовидной кишки, такие как легкость дифференциации и нахождение в диапазоне 0-1. Выходные данные логистической сигмоидальной функции также находятся между 0 и 1 и, следовательно, естественно являются подходящим выбором для представления вероятности. Его производная также оценивается с точки зрения его собственной продукции. Однако, если ваша функция имеет выходной вектор, вам нужно использовать функцию Softmax, чтобы получить распределение вероятностей по выходному вектору. Есть некоторые другие преимущества использования Softmax, о которых упоминал инди-AI, хотя это не обязательно имеет отношение к теории универсального приближения, поскольку Softmax не является функцией, используемой только для нейронных сетей.
Ссылки