Почему мы минимизируем отрицательную вероятность, если она эквивалентна максимизации вероятности?

47

Этот вопрос меня давно озадачил. Я понимаю использование 'log' в максимизации вероятности, поэтому я не спрашиваю о 'log'.

Мой вопрос таков: поскольку максимизация логарифмической вероятности эквивалентна минимизации «отрицательной логарифмической вероятности» (NLL), почему мы изобрели эту NLL? Почему бы нам не использовать «положительную вероятность» все время? При каких обстоятельствах предпочтение отдается NLL?

Я нашел небольшое объяснение здесь. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , и это, кажется, объясняет очевидную эквивалентность в глубине, но не решает мою путаницу.

Любое объяснение будет оценено.

maximum-likelihood likelihood

— Тони
источник

3

Максимальное логарифмическое правдоподобие не является функцией потерь, но ее негативное значение объясняется в статье в последнем разделе. Это вопрос последовательности. Предположим, что у вас есть умная система обучения, пробующая разные функции потерь для данной проблемы. Набор функций потерь будет содержать квадрат потерь, абсолютные потери и т. Д. Чтобы получить согласованный список, вы добавите отрицательную логарифмическую вероятность в список функций потерь.

— Кагдас Озгенц

41

Это альтернативный ответ: оптимизаторы в статистических пакетах обычно работают путем минимизации результата функции. Если ваша функция сначала выдает значение правдоподобия, удобнее использовать логарифм, чтобы уменьшить значение, возвращаемое функцией правдоподобия. Затем, поскольку функции правдоподобия и правдоподобия имеют одинаковую тенденцию к увеличению или уменьшению, можно минимизировать отрицательный логарифмический правдоподобие, чтобы фактически выполнить оценку максимального правдоподобия тестируемой функции. Смотрите, например, nlminbфункцию в R здесь

— Никола Динаполи
источник

10

Я бы сказал, что это даже выходит за рамки оптимизаторов и коренится в соглашениях в теории оптимизации. Кажется, минимизация часто считается оптимизацией по умолчанию. Например, рассмотрим название «выпуклая оптимизация», которая идет вместе с минимизацией, но ее можно так же легко назвать «вогнутой оптимизацией».

— побитовый

47

Оптимизаторы обычно минимизируют функцию, поэтому мы используем отрицательную логарифмическую вероятность как минимизацию, что эквивалентно максимизации логарифмической вероятности или самой вероятности.

Просто для полноты я бы упомянул, что логарифм является монотонной функцией, поэтому оптимизация функции - это то же самое, что оптимизация ее логарифма. Выполнение лог-преобразования функции правдоподобия облегчает обработку (умножение становится суммой), и это также численно более стабильно. Это потому, что величина вероятности может быть очень мала. Выполнение преобразования журнала преобразует эти небольшие числа в большие отрицательные значения, с которыми машина конечной точности может справиться лучше.

— Лука
источник

4

Например, я часто сталкиваюсь с вероятностями порядка 40 000 в моей работе. В этом режиме численно невозможно работать с самой вероятностью.

— Уилл Вустен

3

Здесь минимизирующие средства уменьшают расстояние двух распределений до самого низкого: целевого распределения Бернулли и распределения генерируемого результата. Мы измеряем расстояние двух распределений, используя дивергенцию Кульбака-Лейблера (также называемую относительной энтропией), и благодаря теории большого числа минимизация KL-расхождения сводится к минимизации кросс-энтропии (либо кросс-энтропия мультикласса, см. Здесь, либо двоичная классификация, см. Здесь и здесь )

таким образом

максимизация логарифмической вероятности эквивалентна минимизации «негативной логарифмической вероятности»

можно перевести на

Максимизация логарифмической вероятности эквивалентна минимизации расстояния между двумя распределениями, следовательно, эквивалентна минимизации расхождения KL, а затем перекрестной энтропии.

Я думаю, что это стало довольно интуитивным.

— Лернер Чжан
источник

1

Ответ проще, чем вы думаете. Это соглашение, что мы называем целевую функцию оптимизации «функцией затрат» или «функцией потерь», и поэтому мы хотим минимизировать их, а не максимизировать их, и, следовательно, формируется отрицательная логарифмическая вероятность, а не положительная вероятность в вашем слово. Технически оба верны, хотя. Кстати, если мы хотим что-то максимизировать, мы обычно называем это «функцией полезности» и, следовательно, цель - максимизировать их.

— Ян
источник