Этот вопрос меня давно озадачил. Я понимаю использование 'log' в максимизации вероятности, поэтому я не спрашиваю о 'log'.
Мой вопрос таков: поскольку максимизация логарифмической вероятности эквивалентна минимизации «отрицательной логарифмической вероятности» (NLL), почему мы изобрели эту NLL? Почему бы нам не использовать «положительную вероятность» все время? При каких обстоятельствах предпочтение отдается NLL?
Я нашел небольшое объяснение здесь. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , и это, кажется, объясняет очевидную эквивалентность в глубине, но не решает мою путаницу.
Любое объяснение будет оценено.