Это действительно просто удобство для правдоподобия, не более того.
Я имею в виду удобства сумм против продуктов: , суммы легче иметь дело с во многих отношениях, например, differentialtion или интеграции. Это не удобство только для показательных семей, я пытаюсь сказать.ln(∏ixi)=∑ilnxi
Когда вы имеете дело со случайной выборкой, вероятности имеют вид: , поэтому логарифмическая вероятность вместо этого разбивает этот продукт на сумму, которую легче манипулировать и анализировать. Помогает то, что все, что нас волнует, это точка максимума, значение максимума не важно, так как мы можем применить любое монотонное преобразование, такое как логарифм.L=∏ipi
О кривизне интуиции. В конце концов, это то же самое, что и вторая производная логарифмического правдоподобия.
ОБНОВЛЕНИЕ: Это то, что я имел в виду на кривизну. Если у вас есть функция , то ее кривизна будет ( см. (14) на Wolfram):
κ = f ″ ( x )y=f(x)
κ = f''( х )( 1 + F'( х )2)3 / 2
Вторая производная логарифмической вероятности:
A = ( lnе( х ) )''= ф''( х )е( х )- ( ф'( х )е( х ))2
В точке максимума первая производная, очевидно, равна нулю, поэтому мы получаем:
Следовательно, мой намек на то, что кривизна вероятности и вторая производная логарифмического правдоподобия - это то же самое, своего рода.
κм а х= ф''( хм а х) = A f( хм а х)
С другой стороны, если первая производная правдоподобия мала не только в точке максимума, но и вокруг нее, т. Е. Функция правдоподобия плоская, то получаем:
Теперь плоское правдоподобие для нас это нехорошо, потому что это затрудняет численный поиск максимума, а максимальная вероятность не так уж лучше, чем в других точках вокруг него, то есть ошибки оценки параметров высоки.
κ ≈ f''( х ) ≈ А ф( х )
И снова у нас все еще есть кривизна и вторая производная отношения. Так почему же Фишер не посмотрел на кривизну функции правдоподобия? Я думаю, что по той же причине удобства. Легче манипулировать правдоподобием из-за сумм вместо продукта. Таким образом, он мог изучать кривизну вероятности, анализируя вторую производную логарифмического правдоподобия. Хотя уравнение выглядит очень простым для кривизны , на самом деле вы берете вторую производную продукта, которая сложнее, чем сумма вторых производных.κм а х= ф''( хм а х)
ОБНОВЛЕНИЕ 2:
Вот демонстрация. Я рисую (полностью составленную) функцию правдоподобия, ее а) кривизну и б) 2-ю производную от ее логарифма. С левой стороны вы видите узкую вероятность, а с правой стороны - широкую. Вы видите, как в точке максимального правдоподобия а) и б) сходятся, как они должны. Что еще более важно, вы можете изучить ширину (или плоскостность) функции правдоподобия, изучив 2-ю производную ее логарифмического правдоподобия. Как я писал ранее, последний технически проще анализировать, чем первый.
Неудивительно, что более глубокая 2-я производная сигналов логарифмического правдоподобия выравнивает функцию правдоподобия вокруг своего максимума, что нежелательно, поскольку вызывает большую ошибку оценки параметров.
Код MATLAB на случай, если вы хотите воспроизвести графики:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
ОБНОВЛЕНИЕ 3:
В приведенном выше коде я включил произвольную функцию в форме колокола в уравнение кривизны, а затем вычислил вторую производную его логарифма. Я ничего не масштабировал, значения взяты из уравнений, чтобы показать эквивалентность, о которой я упоминал ранее.
Вот самая первая статья о вероятности, которую Фишер опубликовал, еще будучи в университете, «Об абсолютном критерии для подбора частотных кривых», Вестник математики, 41: 155-160 (1912)
журналп'= ∑N1журналп
журналп= ∫∞- ∞журналеdИкс
п
Стоит отметить, что, читая газету, он только начинал с работы по оценке максимального правдоподобия и проделал большую работу в последующие 10 лет, так что даже термин MLE, насколько я знаю, еще не был придуман.