Теоретическая мотивация использования логарифмического правдоподобия и правдоподобия


18

Я пытаюсь понять на более глубоком уровне повсеместность логарифмической вероятности (и, возможно, в более общем смысле логарифмической вероятности) в статистике и теории вероятностей. Логарифмические вероятности проявляются повсеместно: мы обычно работаем с логарифмической вероятностью для анализа (например, для максимизации), информация Фишера определяется в терминах второй производной логарифмической вероятности, энтропия - это ожидаемая логарифмическая вероятность Расхождение Кульбака-Либлера включает логарифмические вероятности, ожидаемое расхождение - ожидаемое логарифмическое правдоподобие и т. Д.

Теперь я ценю множество практических и удобных причин. Многие распространенные и полезные PDF-файлы принадлежат экспоненциальным семействам, что приводит к элегантно упрощенным терминам при преобразовании журнала. С суммами легче работать, чем с продуктами (особенно для дифференциации). Лог-зонды имеют большое преимущество с плавающей точкой по сравнению с прямыми. Преобразование журнала в формате PDF часто преобразует не вогнутую функцию в вогнутую функцию. Но какова теоретическая причина / обоснование / мотивация лог-зондов?

В качестве примера моего недоумения рассмотрим информацию Фишера (FI). Обычное объяснение для интуитивного понимания FI состоит в том, что вторая производная логарифмического правдоподобия говорит нам, как «достигнуто» логарифмическое сходство: очень пиковое логарифмическое правдоподобие означает, что MLE хорошо определен, и мы относительно уверены в его значении в то время как почти плоское логарифмическое сходство (низкая кривизна) означает, что многие различные значения параметров почти так же хороши (с точки зрения логарифмического правдоподобия), что и MLE, поэтому наш MLE более неопределенный.

Это все хорошо, но разве не естественнее просто найти кривизну самой функции правдоподобия (НЕ лог-преобразованной)? На первый взгляд акцент на лог-преобразовании кажется произвольным и неправильным. Конечно, нас больше интересует кривизна фактической функции правдоподобия. Какова была мотивация Фишера для работы с функцией оценки и гессианом вероятности логарифма вместо этого?

Является ли ответ просто, что, в конце концов, мы получаем хорошие результаты от асимптотически логарифмического правдоподобия? Например, Крамер-Рао и Нормальность MLE / Задняя. Или есть более глубокая причина?


2
Я задал подобный вопрос здесь
Haitao Du

Ответы:


13

Это действительно просто удобство для правдоподобия, не более того.

Я имею в виду удобства сумм против продуктов: , суммы легче иметь дело с во многих отношениях, например, differentialtion или интеграции. Это не удобство только для показательных семей, я пытаюсь сказать.ln(ixi)=ilnxi

Когда вы имеете дело со случайной выборкой, вероятности имеют вид: , поэтому логарифмическая вероятность вместо этого разбивает этот продукт на сумму, которую легче манипулировать и анализировать. Помогает то, что все, что нас волнует, это точка максимума, значение максимума не важно, так как мы можем применить любое монотонное преобразование, такое как логарифм.L=ipi

О кривизне интуиции. В конце концов, это то же самое, что и вторая производная логарифмического правдоподобия.

ОБНОВЛЕНИЕ: Это то, что я имел в виду на кривизну. Если у вас есть функция , то ее кривизна будет ( см. (14) на Wolfram): κ = f ( x )y=f(x)

κзнак равное"(Икс)(1+е'(Икс)2)3/2

Вторая производная логарифмической вероятности:

Aзнак равно(пере(Икс))"знак равное"(Икс)е(Икс)-(е'(Икс)е(Икс))2

В точке максимума первая производная, очевидно, равна нулю, поэтому мы получаем: Следовательно, мой намек на то, что кривизна вероятности и вторая производная логарифмического правдоподобия - это то же самое, своего рода.

κмaИксзнак равное"(ИксмaИкс)знак равноAе(ИксмaИкс)

С другой стороны, если первая производная правдоподобия мала не только в точке максимума, но и вокруг нее, т. Е. Функция правдоподобия плоская, то получаем: Теперь плоское правдоподобие для нас это нехорошо, потому что это затрудняет численный поиск максимума, а максимальная вероятность не так уж лучше, чем в других точках вокруг него, то есть ошибки оценки параметров высоки.

κе"(Икс)Aе(Икс)

И снова у нас все еще есть кривизна и вторая производная отношения. Так почему же Фишер не посмотрел на кривизну функции правдоподобия? Я думаю, что по той же причине удобства. Легче манипулировать правдоподобием из-за сумм вместо продукта. Таким образом, он мог изучать кривизну вероятности, анализируя вторую производную логарифмического правдоподобия. Хотя уравнение выглядит очень простым для кривизны , на самом деле вы берете вторую производную продукта, которая сложнее, чем сумма вторых производных.κмaИксзнак равное"(ИксмaИкс)

ОБНОВЛЕНИЕ 2:

Вот демонстрация. Я рисую (полностью составленную) функцию правдоподобия, ее а) кривизну и б) 2-ю производную от ее логарифма. С левой стороны вы видите узкую вероятность, а с правой стороны - широкую. Вы видите, как в точке максимального правдоподобия а) и б) сходятся, как они должны. Что еще более важно, вы можете изучить ширину (или плоскостность) функции правдоподобия, изучив 2-ю производную ее логарифмического правдоподобия. Как я писал ранее, последний технически проще анализировать, чем первый.

Неудивительно, что более глубокая 2-я производная сигналов логарифмического правдоподобия выравнивает функцию правдоподобия вокруг своего максимума, что нежелательно, поскольку вызывает большую ошибку оценки параметров.

введите описание изображения здесь

Код MATLAB на случай, если вы хотите воспроизвести графики:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

ОБНОВЛЕНИЕ 3:

В приведенном выше коде я включил произвольную функцию в форме колокола в уравнение кривизны, а затем вычислил вторую производную его логарифма. Я ничего не масштабировал, значения взяты из уравнений, чтобы показать эквивалентность, о которой я упоминал ранее.

Вот самая первая статья о вероятности, которую Фишер опубликовал, еще будучи в университете, «Об абсолютном критерии для подбора частотных кривых», Вестник математики, 41: 155-160 (1912)

журналп'знак равноΣ1Nжурналп

журналпзнак равно-журналеdИкс
п

Стоит отметить, что, читая газету, он только начинал с работы по оценке максимального правдоподобия и проделал большую работу в последующие 10 лет, так что даже термин MLE, насколько я знаю, еще не был придуман.


5
Ваше последнее предложение (о кривизне) указывает на то, что действительно есть что-то фундаментальное в вероятности бревна, и что бревно - это не просто «удобство». Я верю, что здесь происходит гораздо больше, чем вы позволяете.
whuber

2
Ваше обсуждение кривизны не представляется уместным, потому что оно не отличает анализ логарифмической вероятности от анализа самой вероятности. Этот ответ, кажется, сводится к тому, что «журналы удобны», но есть гораздо больше проблемы, чем это, как начинают предлагать другие ответы.
whuber

f(xmaИкс)е(ИксмaИкс)знак равно1

Таким образом, использование логарифмического правдоподобия для информации Фишера, по-видимому, служит двум практическим целям: (1) с логарифмическими правдоподобиями легче работать, и (2) он, естественно, игнорирует произвольный коэффициент масштабирования. И это дает тот же ответ, что и 2-й производный прямой вероятности. Это кажется мне важным моментом, который не был очевиден и который я никогда не видел в тексте статистики. Предположительно это было известно Фишеру.
рацалад

е(ИксмaИкс)"знак равно(пере(Икс))"е(ИксмaИкс)
е(ИксмaИкс)знак равно1
е(ИксмaИкс)"знак равно(пере(Икс))"

5

Дополнительная точка . Некоторые из наиболее часто используемых распределений вероятностей (включая нормальное распределение, экспоненциальное распределение, распределение Лапласа, и многие другие) являются лог-вогнутыми . Это означает, что их логарифм вогнутый. Это делает максимизацию логарифмической вероятности намного проще, чем максимизацию исходной вероятности (что особенно удобно при методах максимальной вероятности или максимальной апостериорной). Чтобы привести пример, использование метода Ньютона для максимизации многомерного гауссовского распределения напрямую может потребовать большого количества шагов, в то время как максимизация параболоида (журнал многомерного гауссовского распределения) занимает ровно один шаг.


2
Не так быстро. См. Упражнение 7.4 на стр. 393-394 на web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Марк Л. Стоун,

Это не вогнутый журнал. Гауссово является лог-вогнутым по своему аргументу или среднему параметру, но не по дисперсии. Если вы также хотите определить масштаб, вы можете использовать нормальное гамма-распределение, которое также является лог-вогнутым (с использованием точности вместо дисперсии).
Лука

2
Именно это. Все разговоры о том, как журналы удобнее, приятны, но выпуклость (или вогнутость, в зависимости от перспективы) - это то, что действительно отличает логарифмическую вероятность как «правильную» вещь для работы.
Мени Розенфельд

2
Обратите внимание, что я уже упоминал лог-вогнутость в OP. Но это все еще просто «удобство», здесь нет логического обоснования для вогнутости логарифмических единиц, и в любом случае логарифмические правдоподобия вообще не являются вогнутыми в логарифмическом масштабе.
рацалад

1
@ ratsalad, да, ты прав, это удобно. Я думаю, что логарифмические вероятности - это еще один способ взглянуть на функцию вероятности. Я не могу точно сказать, какой из них лучше. Если вы посмотрите на [ en.wikipedia.org/wiki/… меры), некоторые из них эффективно воздействуют на логарифмическую вероятность (например, дивергенцию KL, которая фактически представляет собой ожидаемое значение разности логарифмических вероятностей), а некоторые - непосредственно на вероятность ( например, расстояние KS).
Лука

4

Теоретическое значение логарифмического правдоподобия можно увидеть (по крайней мере) с двух точек зрения: асимптотической теории правдоподобия и теории информации.

Более ранняя из них (я полагаю) - это асимптотическая теория логарифмического правдоподобия. Я думаю, что теория информации начала развиваться задолго до того, как Фишер установил максимальную вероятность на пути к господству 20-го века.

В теории правдоподобия параболическое логарифмическое правдоподобие занимает центральное место в выводе. Люсьен Ле Кам сыграл важную роль в выяснении важности квадратичного логарифмического правдоподобия в асимптотической теории.

Когда у вас есть квадратичное логарифмическое правдоподобие, кривизна MLE не только качественно говорит вам, как точно вы можете оценить параметр, но мы также знаем, что ошибка обычно распределяется с дисперсией, равной обратной величине кривизны. Когда логарифмическое правдоподобие приблизительно квадратично, тогда мы говорим, что эти результаты верны приблизительно или асимптотически.

Вторая причина - это значимость логарифмической вероятности (или логарифмической вероятности) в теории информации , где она является основной величиной, используемой для измерения информационного содержания.

граммграмме(θ)е(θ^)θ^

перL^

Таким образом, вероятность логарифма, помимо полезного числового преобразования, имеет глубокие связи с логическим выводом и теорией информации.


Ваша ссылка на использование логарифмической вероятности в теории информации круговая. Почему они используют журнал? Вероятно, по той же причине, особенно если учесть, что теория информации является относительно новой областью по сравнению со статистикой.
Аксакал

@ Аксакал да и нет. Теория информации получила свои основания частично из статистической механики и энтропии: en.wikipedia.org/wiki/Entropy . Больцман определил энтропию системы, используя журнал числа микросостояний. Зачем логи? Потому что это делает энтропию / аддитивную информацию (как указывает ваш ответ)? Ну и что? На численном уровне линейность / аддитивность открывает применение мощных методов линейной алгебры.

1
@Aksakal, однако, на более фундаментальном уровне аддитивность превращает энтропию / информацию в нечто вроде меры ... сродни массе. Если вы объединяете две статистически независимые системы, то энтропия объединенной системы является суммой энтропии каждой системы. Вот хороший объяснитель: physics.stackexchange.com/questions/240636/...

1
@Bey Термодинамическая статистическая энтропия фактически следует непосредственно из больцмановского распределения микросостояний и классического макроскопического термо (форма статистической энтропии не была «выбором»). Само распределение Больцмана является следствием двух предпосылок: (1) физического свойства, что энергии задаются только с точностью до произвольной аддитивной постоянной, и (2) основного статического предположения о том, что все микросостояния с одинаковой энергией имеют одинаковую вероятность. Таким образом, на самом глубоком уровне термоэнтропия включает в себя лог-зонды, потому что энергия аддитивна и пропорциональна лог-пробе.
рацалад

2
Спасибо @ratsalad за расширение этого ... как вы можете видеть, выход за рамки простых "журналов проще", объяснения вероятности появления журналов могут занять довольно далеко. Я использую логарифмическое правдоподобие по причинам, которые дает Аксакал ... однако ваш ОП попросил что-то более глубокое. Я привел два примера, которые показывают связи с другими областями, которые повлияли на статистику и теорию вероятности. Я думаю, что асимптотические объяснения более прямые, но энтропия и вероятность связаны таким образом, что делает логарифмические вероятности вещами, которые нас интересуют, помимо простого численного удобства.

0

TLDR: намного легче получить суммы, чем продукты, потому что производный оператор является линейным с суммированием, но с продуктом вы должны выполнять правило продукта. Это линейная сложность против некоторой полиномиальной сложности высшего порядка


3
Это то, что вопрос означает «удобный и практичный». Это далеко не единственная и даже не главная причина, по которой анализ фокусируется на логарифмической вероятности. Рассмотрим, например, как будет выглядеть выражение для информации о Фишере с точки зрения вероятности, а не логарифмической вероятности.
whuber

Да, конечно; Я думаю, когда он сказал, что «проще» найти его напрямую, я подумал, что он имел в виду противоположность этому, потому что его, безусловно, легче найти после применения преобразования журнала.
Чарли Тиан
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.