Почему softmax используется для представления распределения вероятностей?


10

В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?

Ответы:


7

С точки зрения оптимизации он обладает некоторыми хорошими свойствами с точки зрения дифференцируемости. Для многих проблем машинного обучения это хорошо подходит для классификации 1-из-N.

С точки зрения глубокого обучения. Можно также утверждать, что теоретически использование глубокой сети с классификатором softmax сверху может представлять любую функцию вероятности N-класса в пространстве признаков, поскольку MLP обладают свойством универсальной аппроксимации .


1
Таким образом, главная причина популярности Softmax - это отличительные свойства дифференциации, которые полезны в условиях обучения на основе градиента. Вот так, верно?
ШАШАНК ГУПТА

Да, по-моему, в любом случае. Softmax прост с хорошими производными и привлекателен для обучения на основе градиента. Согласитесь со всем, что вы сказали.
Инди AI

Вы можете рассматривать softmax как функцию вероятности масса / плотность функции, которую вы собираетесь оптимизировать. На мой взгляд, softmax - это просто удобный способ моделирования функции вероятности масса / плотность.
Чарльз Чоу

3

Softmax также является обобщением логистической сигмовидной функции и, следовательно, несет свойства сигмовидной кишки, такие как легкость дифференциации и нахождение в диапазоне 0-1. Выходные данные логистической сигмоидальной функции также находятся между 0 и 1 и, следовательно, естественно являются подходящим выбором для представления вероятности. Его производная также оценивается с точки зрения его собственной продукции. Однако, если ваша функция имеет выходной вектор, вам нужно использовать функцию Softmax, чтобы получить распределение вероятностей по выходному вектору. Есть некоторые другие преимущества использования Softmax, о которых упоминал инди-AI, хотя это не обязательно имеет отношение к теории универсального приближения, поскольку Softmax не является функцией, используемой только для нейронных сетей.

Ссылки

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.