MLE оценки весов искусственных нейронных сетей (ANN), безусловно, возможны ; действительно, это совершенно типично. Для задач классификации стандартной целевой функцией является кросс-энтропия, которая совпадает с отрицательной логарифмической вероятностью биномиальной модели. Для задач регрессии используется остаточная квадратная ошибка, которая параллельна MLE OLS-регрессии.
Но есть некоторые проблемы с предположением, что хорошие свойства MLE, полученные в классической статистике, также справедливы для MLE нейронных сетей.
Существует общая проблема с оценкой ANN: существует много симметричных решений даже для однослойных ANN. Реверсирование знаков весов для скрытого слоя и реверсирование знаков параметров активации скрытого слоя имеют одинаковую вероятность. Кроме того, вы можете переставить любой из скрытых узлов, и эти перестановки также имеют такую же вероятность. Это имеет значение, поскольку вы должны признать, что отказываетесь от идентификации. Однако, если идентификация не важна, вы можете просто принять, что эти альтернативные решения являются просто отражениями и / или перестановками друг друга.
Это отличается от классического использования MLE в статистике, такого как регрессия OLS: проблема OLS является выпуклой и строго выпуклой, когда матрица проектирования имеет полный ранг. Сильная выпуклость подразумевает наличие единственного, уникального минимизатора.
ANN будут склонны переписывать данные при использовании неограниченного решения. Веса будут стремиться отклоняться от исходной точки до невероятно больших значений, которые плохо обобщаются или предсказывают новые данные с большой точностью. Внедрение снижения веса или других методов регуляризации приводит к уменьшению оценок веса до нуля. Это не обязательно решает проблему неопределенности из (1), но может улучшить обобщение сети.
Функция потерь невыпуклая, и оптимизация может найти локально оптимальные решения, которые не являются глобально оптимальными. Или, возможно, эти решения являются седловыми точками, где некоторые методы оптимизации останавливаются. Результаты в этой статье показывают, что современные методы оценки обходят эту проблему.
L1L2