Можем ли мы использовать MLE для оценки веса нейронной сети?

23

Я только начал изучать статистику и моделирование вещей. В настоящее время я понимаю, что мы используем MLE, чтобы оценить лучшие параметры для модели. Однако, когда я пытаюсь понять, как работают нейронные сети, кажется, что они обычно используют другой подход для оценки параметров. Почему мы не используем MLE или вообще возможно использовать MLE?

maximum-likelihood neural-networks

— тор
источник

16

MLE оценки весов искусственных нейронных сетей (ANN), безусловно, возможны ; действительно, это совершенно типично. Для задач классификации стандартной целевой функцией является кросс-энтропия, которая совпадает с отрицательной логарифмической вероятностью биномиальной модели. Для задач регрессии используется остаточная квадратная ошибка, которая параллельна MLE OLS-регрессии.

Но есть некоторые проблемы с предположением, что хорошие свойства MLE, полученные в классической статистике, также справедливы для MLE нейронных сетей.

Существует общая проблема с оценкой ANN: существует много симметричных решений даже для однослойных ANN. Реверсирование знаков весов для скрытого слоя и реверсирование знаков параметров активации скрытого слоя имеют одинаковую вероятность. Кроме того, вы можете переставить любой из скрытых узлов, и эти перестановки также имеют такую же вероятность. Это имеет значение, поскольку вы должны признать, что отказываетесь от идентификации. Однако, если идентификация не важна, вы можете просто принять, что эти альтернативные решения являются просто отражениями и / или перестановками друг друга.

Это отличается от классического использования MLE в статистике, такого как регрессия OLS: проблема OLS является выпуклой и строго выпуклой, когда матрица проектирования имеет полный ранг. Сильная выпуклость подразумевает наличие единственного, уникального минимизатора.
ANN будут склонны переписывать данные при использовании неограниченного решения. Веса будут стремиться отклоняться от исходной точки до невероятно больших значений, которые плохо обобщаются или предсказывают новые данные с большой точностью. Внедрение снижения веса или других методов регуляризации приводит к уменьшению оценок веса до нуля. Это не обязательно решает проблему неопределенности из (1), но может улучшить обобщение сети.
Функция потерь невыпуклая, и оптимизация может найти локально оптимальные решения, которые не являются глобально оптимальными. Или, возможно, эти решения являются седловыми точками, где некоторые методы оптимизации останавливаются. Результаты в этой статье показывают, что современные методы оценки обходят эту проблему.
$L^1$ $L^2$

— Sycorax говорит восстановить Монику
источник

2

Прошу не согласиться с тем, что вы говорите. Различные локальные минимумы, возникающие из симметрий, имеют одинаковое качество, поэтому вам не нужно об этом беспокоиться. Вероятно, вы хотите сказать, что ANN не имеют выпуклых функций потерь, что делает оптимизацию более сложной и не гарантирует нахождения глобального оптимума. Однако в последнее время появилось немало свидетельств того, что ANN на самом деле имеют не столько локальных минимумов, сколько проблем седловой точки. Смотрите, например, arxiv.org/abs/1412.6544 .

— Bayerj

11

В задачах классификации максимизация вероятности является наиболее распространенным способом обучения нейронной сети (как контролируемые, так и неконтролируемые модели).

На практике мы обычно сводим к минимуму отрицательное логарифмическое правдоподобие (эквивалент MLE). Единственное ограничение для использования отрицательного логарифмического правдоподобия - наличие выходного слоя, который можно интерпретировать как распределение вероятностей. Для этого обычно используется выходной слой softmax. Обратите внимание, что в сообществе нейронных сетей отрицательное логарифмическое правдоподобие иногда называют кросс-энтропией. Конечно, можно добавить термины регуляризации (и иногда их можно интерпретировать как предварительные распределения по параметрам, в этом случае мы ищем максимальный апостериорный ( MAP )).

— AdeB
источник