Обычно нейронные сети не используются для моделирования полной плотности вероятности. Их целью является просто моделирование среднего значения распределения (или в детерминированной ситуации просто нелинейная функция). Тем не менее, очень возможно моделировать полные плотности вероятности через нейронные сети.
Один из простых способов сделать это, например, для случая Гаусса - вывести среднее значение из одного выхода и дисперсию из другого выхода сети, а затем минимизировать функцию как часть тренировочный процесс вместо общей квадратичной ошибки. Это процедура максимального правдоподобия для нейронной сети.−logN(y|x;μ,σ)
Когда вы обучаете эту сеть каждый раз, когда вы вставляете значение в качестве входных данных, вы получите и , тогда вы можете подключить весь триплет к плотности чтобы получить значение плотности для любого вам нравится. На этом этапе вы можете выбрать, какое значение использовать, основываясь на реальной функции потери домена. Следует иметь в виду, что для выходная активация должна быть неограниченной, чтобы вы могли передать to тогда как должна быть только положительной активацией.ц сг у , ц , сг е ( у | х ) ~ N ( ц , сг ) у у ц - инф + инф сгxμσy,μ,σf(y|x)∼N(μ,σ)yyμ−inf+infσ
В общем, если только это не детерминированная функция, к которой мы стремимся, стандартная тренировка квадратов потерь, используемая в нейронных сетях, в значительной степени та же самая процедура, которую я описал выше. Под капотом подразумевается неявное распределение не заботясь о и, если вы внимательно изучите вы получите выражение для квадрата потерь ( функция потерь от максимальной вероятности Гаусса оценщик ). В этом сценарии, однако, вместо значения которое вам по вкусу, вы застреваете с выпуском каждый раз, когда задается новое значение .Gaussianσ−logN(y|x;μ,σ)yμx
Для классификации выходом будет распределение вместо , которое имеет единственный параметр для излучения. Как указано в другом ответе, этот параметр находится между и поэтому активация выхода должна быть соответственно. Это может быть логистическая функция или что-то еще, которое достигает той же цели.BernoulliGaussian01
Более сложным подходом являются сети плотности смеси Бишопа. Вы можете прочитать об этом в часто упоминаемой статье здесь:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf