Вопросы с тегом «softmax»

Нормализующая экспоненциальная функция, которая преобразует числовой вектор таким образом, что все его записи становятся между 0 и 1 и вместе составляют 1. Она часто используется в качестве последнего уровня нейронной сети, выполняющей задачу классификации.

4
Softmax против сигмоидальной функции в логистическом классификаторе?
От чего зависит выбор функции (Softmax vs Sigmoid) в классификаторе логистики? Предположим, есть 4 выходных класса. Каждая из вышеприведенных функций дает вероятности того, что каждый класс является правильным выводом. Так какой же взять за классификатор?

6
Обратное распространение с Softmax / Cross Entropy
Я пытаюсь понять, как работает обратное распространение для выходного слоя softmax / cross-entropy. Функция кросс-энтропийной ошибки E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j с и в качестве цели и выхода на нейроне соответственно. Сумма по каждому нейрону в выходном слое. Сам является результатом функции softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Опять же, сумма по каждому нейрону …

1
Кросс-энтропия или логарифмическая вероятность в выходном слое
Я читаю эту страницу: http://neuralnetworksanddeeplearning.com/chap3.html и это сказало, что сигмоидальный выходной слой с кросс-энтропией весьма похож на выходной слой softmax с логарифмической вероятностью. что произойдет, если я использую сигмоид с логарифмической вероятностью или softmax с перекрестной энтропией в выходном слое? это нормально? потому что я вижу, что есть только небольшая …

4
Почему вывод softmax не является хорошим показателем неопределенности для моделей глубокого обучения?
Я работаю с Convolutional Neural Networks (CNNs) в течение некоторого времени, в основном над данными изображений для семантической сегментации / сегментации экземпляров. Я часто представлял softmax выхода сети как «тепловую карту», ​​чтобы увидеть, насколько высоки активации на пиксель для определенного класса. Я интерпретировал низкие активации как «неопределенные» / «неуверенные» и …

2
Почему функция softmax используется для вычисления вероятностей, хотя мы можем разделить каждое значение на сумму вектора?
Применение функции softmax к вектору даст «вероятности» и значения между и . 000111 Но мы также можем разделить каждое значение на сумму вектора, и это даст вероятности и значения между и .000111 Я прочитал ответ здесь, но он говорит, что причина в том, что он дифференцируем, хотя обе функции дифференцируемы.

1
Как настроить нейронную сеть для вывода порядковых данных?
У меня есть нейронная сеть, настроенная для предсказания чего-то, где выходная переменная является порядковой. Я опишу ниже, используя три возможных выхода A <B <C. Совершенно очевидно, как использовать нейронную сеть для вывода категориальных данных: выходные данные - это просто максимальное значение последнего (обычно полностью подключенного) слоя, по одному на категорию, …

1
Карет глмнет против cv.glmnet
Кажется, существует большая путаница при сравнении использования glmnetвнутри caretдля поиска оптимальной лямбды и использования cv.glmnetдля выполнения той же задачи. Было задано много вопросов, например: Модель классификации train.glmnet против cv.glmnet? Как правильно использовать glmnet с кареткой? Перекрестная проверка `glmnet` с использованием` caret` но ответа не дано, что может быть связано с …

3
Почему иерархический софтмакс лучше для нечастых слов, а отрицательная выборка лучше для частых слов?
Интересно, почему иерархический софтмакс лучше подходит для нечастых слов, а отрицательная выборка лучше для частых слов в моделях CBOW и skip-грамм word2vec. Я прочитал претензию на https://code.google.com/p/word2vec/ .

2
Различные определения функции кросс-энтропийной потери
Я начал с изучения нейронных сетей с помощью учебника по нейронным сетям и углублённому изучению точек. В частности, в 3-й главе есть раздел о функции кросс-энтропии, который определяет потерю кросс-энтропии как: С= - 1NΣИксΣJ( уJперaLJ+ ( 1 - уJ) пер( 1 - аLJ) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

2
Насколько глубока связь между функцией softmax в ML и распределением Больцмана в термодинамике?
Функция softmax, обычно используемая в нейронных сетях для преобразования действительных чисел в вероятности, является той же самой функцией, что и распределение Больцмана, распределение вероятностей по энергиям для ансамбля частиц в тепловом равновесии при заданной температуре T в термодинамике. Я вижу некоторые четкие эвристические причины, почему это практично: Независимо от того, …

3
Нелинейность перед конечным слоем Softmax в сверточной нейронной сети
Я изучаю и пытаюсь реализовать сверточные нейронные сети, но я полагаю, что этот вопрос относится к многослойным персептронам в целом. Выходные нейроны в моей сети представляют активацию каждого класса: самый активный нейрон соответствует предсказанному классу для данного входа. Чтобы учесть стоимость кросс-энтропии для обучения, я добавляю слой softmax в конце …

2
Почему softmax используется для представления распределения вероятностей?
В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?

3
Как применить Softmax в качестве функции активации в многослойном Perceptron в scikit-learn? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 11 месяцев назад . Мне нужно применить функцию активации Softmax к многослойному Perceptron в Scikit. Документация Scikit по теме моделей нейронных сетей (под …

2
Многочленные логистические потери против (перекрестная энтропия против квадратной ошибки)
Я заметил, что Caffe (структура глубокого обучения) использовала Softmax Loss Layer в SoftmaxWithLoss качестве выходного слоя для большинства образцов модели . Насколько я знаю, слой Softmax Loss представляет собой комбинацию Multinomial Logistic Loss Layer и Softmax Layer . От Кафе они сказали, что Расчет градиента слоя потерь Softmax более численно …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.