Почему мы минимизируем отрицательную вероятность, если она эквивалентна максимизации вероятности?


47

Этот вопрос меня давно озадачил. Я понимаю использование 'log' в максимизации вероятности, поэтому я не спрашиваю о 'log'.

Мой вопрос таков: поскольку максимизация логарифмической вероятности эквивалентна минимизации «отрицательной логарифмической вероятности» (NLL), почему мы изобрели эту NLL? Почему бы нам не использовать «положительную вероятность» все время? При каких обстоятельствах предпочтение отдается NLL?

Я нашел небольшое объяснение здесь. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , и это, кажется, объясняет очевидную эквивалентность в глубине, но не решает мою путаницу.

Любое объяснение будет оценено.


3
Максимальное логарифмическое правдоподобие не является функцией потерь, но ее негативное значение объясняется в статье в последнем разделе. Это вопрос последовательности. Предположим, что у вас есть умная система обучения, пробующая разные функции потерь для данной проблемы. Набор функций потерь будет содержать квадрат потерь, абсолютные потери и т. Д. Чтобы получить согласованный список, вы добавите отрицательную логарифмическую вероятность в список функций потерь.
Кагдас Озгенц

Ответы:


41

Это альтернативный ответ: оптимизаторы в статистических пакетах обычно работают путем минимизации результата функции. Если ваша функция сначала выдает значение правдоподобия, удобнее использовать логарифм, чтобы уменьшить значение, возвращаемое функцией правдоподобия. Затем, поскольку функции правдоподобия и правдоподобия имеют одинаковую тенденцию к увеличению или уменьшению, можно минимизировать отрицательный логарифмический правдоподобие, чтобы фактически выполнить оценку максимального правдоподобия тестируемой функции. Смотрите, например, nlminbфункцию в R здесь


10
Я бы сказал, что это даже выходит за рамки оптимизаторов и коренится в соглашениях в теории оптимизации. Кажется, минимизация часто считается оптимизацией по умолчанию. Например, рассмотрим название «выпуклая оптимизация», которая идет вместе с минимизацией, но ее можно так же легко назвать «вогнутой оптимизацией».
побитовый

47

Оптимизаторы обычно минимизируют функцию, поэтому мы используем отрицательную логарифмическую вероятность как минимизацию, что эквивалентно максимизации логарифмической вероятности или самой вероятности.

Просто для полноты я бы упомянул, что логарифм является монотонной функцией, поэтому оптимизация функции - это то же самое, что оптимизация ее логарифма. Выполнение лог-преобразования функции правдоподобия облегчает обработку (умножение становится суммой), и это также численно более стабильно. Это потому, что величина вероятности может быть очень мала. Выполнение преобразования журнала преобразует эти небольшие числа в большие отрицательные значения, с которыми машина конечной точности может справиться лучше.


4
Например, я часто сталкиваюсь с вероятностями порядка 40 000 в моей работе. В этом режиме численно невозможно работать с самой вероятностью.
Уилл Вустен

3

Здесь минимизирующие средства уменьшают расстояние двух распределений до самого низкого: целевого распределения Бернулли и распределения генерируемого результата. Мы измеряем расстояние двух распределений, используя дивергенцию Кульбака-Лейблера (также называемую относительной энтропией), и благодаря теории большого числа минимизация KL-расхождения сводится к минимизации кросс-энтропии (либо кросс-энтропия мультикласса, см. Здесь, либо двоичная классификация, см. Здесь и здесь )

таким образом

максимизация логарифмической вероятности эквивалентна минимизации «негативной логарифмической вероятности»

можно перевести на

Максимизация логарифмической вероятности эквивалентна минимизации расстояния между двумя распределениями, следовательно, эквивалентна минимизации расхождения KL, а затем перекрестной энтропии.

Я думаю, что это стало довольно интуитивным.


1

Ответ проще, чем вы думаете. Это соглашение, что мы называем целевую функцию оптимизации «функцией затрат» или «функцией потерь», и поэтому мы хотим минимизировать их, а не максимизировать их, и, следовательно, формируется отрицательная логарифмическая вероятность, а не положительная вероятность в вашем слово. Технически оба верны, хотя. Кстати, если мы хотим что-то максимизировать, мы обычно называем это «функцией полезности» и, следовательно, цель - максимизировать их.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.