Какова причина того, что функция правдоподобия не PDF?

59

В чем причина того, что функция правдоподобия не является pdf (функцией плотности вероятности)?

likelihood pdf

6

Функция правдоподобия является функцией неизвестного параметра

θ

$\theta$ (обусловлена данными). Как таковая, она, как правило, не имеет области 1 (т. Е. Интеграл по всем возможным значениям

θ

$\theta$ не равен 1) и поэтому по определению не является pdf.

— MånsT

4

Тот же вопрос по МО 2 года назад: mathoverflow.net/questions/10971/…

— Дуглас Заре

3

Интересная ссылка, @Douglas. Ответы довольно неудовлетворительные, ИМХО. Принято одно предполагает вещи, которые просто не соответствуют действительности («оба

p (X | m)

$p(X|m)$ и

p (m | X)

$p(m|X)$ являются pdfs»: нет !), А другие на самом деле не разбираются в статистических вопросах.

— whuber

2

+1 вубер. Удивительно, что на сайте mathoverflow есть такие плохие ответы, несмотря на его высокий математический уровень!

— Стефан Лоран

1

@Stephane: Это правда, но статистики и даже вероятностники, кажется, довольно мало и далеко друг от друга по МО, за некоторыми заметными исключениями. Этот вопрос возник с довольно раннего периода существования МО, когда как общеприемлемые вопросы, так и качество ответов существенно различались.

— кардинал

62

Начнем с двух определений:

Функция плотности вероятности (PDF) является неотрицательной функцией , которая интегрируется с $1$ .
Вероятность определяется как общая плотность наблюдаемых данных в зависимости от параметра. Но, как указывает ссылка на Lehmann, сделанная @whuber в комментарии ниже, функция правдоподобия является функцией только параметра, а данные хранятся в виде фиксированной константы. Поэтому тот факт, что это плотность как функция данных, не имеет значения.

Следовательно, функция правдоподобия не является pdf, потому что ее интеграл по параметру не обязательно равен 1 (и может вообще не быть интегрируемым, как указано в другом комментарии @whuber).

Чтобы увидеть это, мы будем использовать простой пример. Предположим , у вас есть одно наблюдение, , с распределения. Тогда функция правдоподобия $x$ ${\rm Bernoulli}(\theta)$

L (θ) = θ^{x} (1 - θ)^{1 - x}

$L(\theta) = \theta^{x} (1 - \theta)^{1-x}$

Это факт , что . В частности, если , то , так что $\int_{0}^{1} L(\theta) d \theta = 1/2$ $x = 1$ $L(\theta) = \theta$

\int_{0}^{1} L (θ) d θ = \int_{0}^{1} θ d θ = 1 / 2

$\int_{0}^{1} L(\theta) d \theta = \int_{0}^{1} \theta \ d \theta = 1/2$

и аналогичный расчет применяется, когда . Следовательно, не может быть функцией плотности. $x = 0$ $L(\theta)$

Возможно, даже более важным, чем этот технический пример, показывающий, почему вероятность не является плотностью вероятности, является указание на то, что вероятность - это не вероятность того, что значение параметра правильное или что-то в этом роде, - это вероятность (плотность) данных учитывая значение параметра , что совершенно другое. Поэтому не следует ожидать, что функция правдоподобия будет вести себя как плотность вероятности.

— макрос
источник

12

d θ

$d\theta$

ψ = \log (θ / (1 - θ))

$\psi=\log(\theta/(1-\theta))$

3

Это один из способов выразить это: MLE инвариантны относительно монотонных преобразований, но плотности вероятностей нет, QED! Это был именно аргумент Фишера, который я набросал в комментарии к ответу @Michael Chernick.

— whuber

4

d θ

$d\theta$

σ

$\sigma$

1

\int_{D} f

$\int_D f$

1

(+1) Позвольте мне первым поздравить вас с достижением 10K представителя! Хороший ответ; Мне особенно нравится пример, который вы приводите. Приветствия. :)

— кардинал

2

$θ$

— Майкл Черник
источник

3

Итак, вы просто указываете, что вероятность является интегрируемой по отношению к параметру (всегда ли это так?). Я предполагаю, что вы, возможно, намекаете на связь вероятности с апостериорным распределением при использовании плоского априора, но без дополнительного объяснения этот ответ остается для меня загадочным.

— Макро

6

Интеграция в единство не имеет значения. Фишер в статье 1922 года « О математических основах теоретической статистики» заметил, что на самом деле обычно вероятность можно «нормализовать» для интегрирования в единицу при умножении на подходящую функцию так что . То , что он возражает против является произвольность : Есть много , что работы. «... слово« вероятность »неправильно используется в такой связи: вероятность - это отношение частот, а о частотах таких значений мы ничего не можем знать».

L (θ)

$L(\theta)$

p (θ)

$p(\theta)$

\int L (θ) p (θ) d θ = 1

$\int L(\theta)p(\theta)d\theta=1$

p

$p$

— whuber

1

@ Нестор (и Майкл) - кажется, что мы с Вубером оба истолковали этот вопрос как вопрос о том, почему вероятность не является функцией плотности, как функция $\theta$ поэтому кажется, что мы отвечаем на разные вопросы. Конечно, вероятность - это функция плотности наблюдений (учитывая значение параметра) - так она определяется.

— Макро

2

θ

$\theta$

θ

$\theta$

4

f (x_{1}, θ) \dots f (x_{n}, θ)

$f(x_1,\theta)\cdots f(x_n,\theta)$

x

$x$

θ

$\theta$

— whuber

1

Я не статистик, но я понимаю, что, хотя сама функция правдоподобия не является PDF по отношению к параметру (ам), она напрямую связана с этим PDF по правилу Байеса. Функция правдоподобия P (X | theta) и апостериорное распределение f (theta | X) тесно связаны; совсем не "совсем другая вещь".

— Сантаяна
источник

1

Добро пожаловать на наш сайт! Вы можете найти интересный материал в комментариях к другим ответам в этой теме. Некоторые из них указывают, почему правило Байеса не применяется, если явно не введены дополнительные математические механизмы (например, поле Sigma для параметра).

— whuber

Спасибо @whuber. Я не заметил каких-либо ссылок на правило Байеса в других разделах цепочки, но я полагаю, что в комментариях есть намеки, если предположить, что кто-то достаточно свободно оценивает их на уровне выпускника (а я нет). Не согласитесь ли вы с тем, что размещение функции правдоподобия в контексте правила Байеса дает полезную интуицию для вопроса ОП?

— Сантаяна

θ

$\theta$

θ

$\theta$

Мои извинения, на первый взгляд эта ветка казалась чем-то большим, чем просто недоразумением, но теперь я вижу соответствующие комментарии, на которые вы ссылаетесь, в частности вашу цитату из Фишера. Но не сводится ли это к Байесовскому против. Частые дебаты? Не существует ли большого числа практиков байесовского вывода, которые бы высказались в пользу распределения вероятностей для тэты? (согласны ли вы с ними другое дело ...)

— santayana

1

θ

$\theta$

1

$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta)$

$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta) = \prod_{j} f(x_j; \theta)$

Давайте посмотрим на его оригинальную форму:

$f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $\hat{\mathcal{L}} = \frac{posterior * evidence}{prior}$ $\hat{\mathcal{L}}$ $\mathcal{L}$ $\mathcal{L}$ $\hat{\mathcal{L}}$

Например, я не знаю среднего значения и стандартной дисперсии гауссовского распределения и хочу получить их путем обучения с использованием большого количества выборок из этого распределения. Сначала я случайным образом инициализирую среднее и стандартную дисперсию (которая определяет распределение Гаусса), а затем беру одну выборку и вписываюсь в предполагаемое распределение, и я могу получить вероятность из предполагаемого распределения. Затем я продолжаю вставлять выборку и получаю много вероятностей, а затем умножаю эти вероятности и получаю оценку. Этот вид оценки является вероятностью. Вряд ли это может быть вероятность определенного PDF.

— Лернер Чжан
источник