Дело в том, что иногда разные модели (для одних и тех же данных) могут приводить к функциям правдоподобия, которые отличаются мультипликативной константой, но содержание информации должно быть одно и то же. Пример:
Мы моделируем независимых экспериментов Бернулли, которые приводят к данным , каждый с распределением Бернулли с параметром (вероятности) . Это приводит к функции правдоподобия
Или мы можем суммировать данные по биномиально распределенной переменной , который имеет биномиальное распределение, приводящее к функции правдоподобия
которая в зависимости от неизвестного параметра пропорциональна предыдущей функции правдоподобия , Две функции правдоподобия явно содержат одну и ту же информацию и должны приводить к одним и тем же выводам!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
И действительно, по определению они считаются одной и той же вероятностной функцией.
Другая точка зрения: обратите внимание, что когда функции правдоподобия используются в теореме Байеса, как это необходимо для байесовского анализа, такие мультипликативные константы просто отменяются! поэтому они явно не имеют отношения к байесовскому выводу. Кроме того, он будет отменять при расчете отношений правдоподобия, как это используется в тестах оптимальных гипотез (лемма Неймана-Пирсона). И это не будет влиять на значение оценок максимального правдоподобия. Таким образом, мы можем видеть, что в большинстве частых выводов это не может играть роль.
Мы можем спорить с еще одной точки зрения. Функция вероятности Бернулли (здесь и далее мы используем термин «плотность») на самом деле представляет собой плотность по отношению к счетной мере, то есть меру неотрицательных целых чисел с массой один для каждого неотрицательного целого числа. Но мы могли бы определить плотность относительно некоторой другой доминирующей меры. В этом примере это будет казаться (и является) искусственным, но в больших пространствах (функциональных пространствах) это действительно фундаментально! Давайте в целях иллюстрации воспользуемся определенным геометрическим распределением, написанным , с , , и скоро. Тогда плотность распределения Бернулли относительноλλ(0)=1/2λ(1)=1/4λ(2)=1/8λе А , ( х ) = р х ( 1 - р ) 1 - х ⋅ 2 х + 1 P ( X = x ) = f λ ( x ) ⋅ λзадается как
что означает, что
С этой новой, доминирующей мерой функция правдоподобия становится (с обозначениями сверху)
обратите внимание на дополнительный множитель . Таким образом, при изменении доминирующей меры, используемой в определении функции правдоподобия, возникает новая мультипликативная константа, которая не зависит от неизвестного параметраfλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npи явно не имеет значения. Это еще один способ увидеть, как мультипликативные константы должны быть неактуальными. Этот аргумент может быть обобщен с использованием производных Радона-Никодима (так как приведенный выше аргумент является примером.)