Как строго определить вероятность?

Вероятность может быть определена несколькими способами, например:

функция $L$ из $\Theta\times{\cal X}$ которая отображает в т.е. . $(\theta,x)$ $L(\theta \mid x)$ $L:\Theta\times{\cal X} \rightarrow \mathbb{R}$
случайная функция $L(\cdot \mid X)$
мы также можем учитывать, что вероятность - это только «наблюдаемая» вероятность $L(\cdot \mid x^{\text{obs}})$
на практике вероятность доводит информацию о $\theta$ только до мультипликативной константы, поэтому мы можем рассматривать вероятность как класс эквивалентности функций, а не как функцию

Другой вопрос возникает при рассмотрении изменения параметризации: если $\phi=\theta^2$ - это новая параметризация, которую мы обычно обозначаем через $L(\phi \mid x)$ вероятность для $\phi$ и это не оценка предыдущей функции $L(\cdot \mid x)$ в $\theta^2$ но в $\sqrt{\phi}$ . Это оскорбительное, но полезное обозначение, которое может вызвать трудности у начинающих, если оно не подчеркнуто.

Какое ваше любимое строгое определение вероятности?

Кроме того, как вы называете $L(\theta \mid x)$ ? Я обычно говорю что-то вроде «вероятность на $\theta$ когда $x$ наблюдается».

РЕДАКТИРОВАТЬ: с учетом некоторых комментариев ниже, я понимаю, что я должен был уточнить контекст. Я рассматриваю статистическую модель, заданную параметрическим семейством $\{f(\cdot \mid \theta), \theta \in \Theta\}$ плотностей относительно некоторой доминирующей меры, с каждым $f(\cdot \mid \theta)$ определено в пространстве наблюдений ${\cal X}$ . Следовательно, мы определяем $L(\theta \mid x)=f(x \mid \theta)$ и возникает вопрос "что такое $L$ ?" (вопрос не в общем определении вероятности)

— Стефан Лоран
источник

(1) Поскольку для всех , я считаю, что даже константа в определена. (2) Если вы считаете, что такие параметры, как и являются просто координатами для множества распределений, то изменение параметризации не имеет внутреннего математического значения; это просто изменение описания. (3) Носители английского языка будет более естественно сказать , «вероятность того, из » , а не «на» . (4) Пункт «когда наблюдается» имеет философские трудности, потому что большинство никогда не будет соблюдаться. Почему бы просто не сказать "вероятность дана"

∫L(θ|x)dx=1 $\int L(\theta|x)dx = 1$

θ $\theta$

L $L$

ϕ $\phi$

θ $\theta$

x $x$

θ $\theta$

x $x$ "?

— whuber

@whuber: Для (1) я не думаю, что константа четко определена. См. Книгу Е. Т. Джейнса, где он пишет: «вероятность не является вероятностью, потому что ее нормализация является произвольной».

— Нил Дж

Вы, кажется, путаете два вида нормализации, Нейл: Джейнс имел в виду нормализацию путем интеграции через , а не .

θ $\theta$

x $x$

— whuber

@whuber: Я не думаю, что коэффициент масштабирования будет иметь значение для границы Крамера-Рао, потому что изменение добавляет постоянную величину к логарифмической вероятности, которая затем исчезает, когда берется частная производная.

k $k$

— Нил Дж

Я согласен с Нилом, я не вижу ни одного приложения, где константа играет роль

— Стефан Лоран

Ответы:

Ваш третий пункт - тот, который я видел наиболее часто используемым в качестве строгого определения.

Остальные тоже интересны (+1). В частности, первое является привлекательным, поскольку трудно определить размер выборки (пока), сложнее определить набор «от».

Для меня фундаментальная интуиция вероятности состоит в том, что она является функцией модели + ее параметров, а не функцией случайных величин (также важным моментом в учебных целях). Поэтому я бы придерживался третьего определения.

Источником злоупотребления нотацией является то, что множество вероятностей «от» является неявным, что обычно не относится к четко определенным функциям. Здесь наиболее строгий подход состоит в том, чтобы понять, что после преобразования вероятность связана с другой моделью. Это эквивалентно первой, но все же другой модели. Таким образом, запись правдоподобия должна показывать, к какой модели она относится (подстрочный или другой). Я никогда не делаю это, конечно, но для обучения, я мог бы.

Наконец, чтобы соответствовать моим предыдущим ответам, я говорю «вероятность » в вашей последней формуле. $\theta$

— gui11aume
источник

Спасибо. А что вы посоветуете относительно равенства с точностью до мультипликативной константы?

— Стефан Лоран

Лично я предпочитаю вызывать это при необходимости, а не жестко кодировать в определении. И подумайте, что для выбора / сравнения моделей это равенство «до мультипликативной константы» не выполняется.

— gui11aume

Хорошо. Что касается названия, можно представить, что вы обсуждали вероятность

для двух возможных наблюдений. В таком случае, вы бы сказали «вероятность

при наблюдении

», или «вероятность

для наблюдения

», или что-то еще? L(θ∣x1) $L(\theta\mid x_1)$

L(θ∣x2) $L(\theta\mid x_2)$

θ $\theta$

x1 $x_1$

θ $\theta$

x1 $x_1$

— Стефан Лоран

Если вы повторно параметризовали свою модель с

вы фактически вычисляете вероятность как композицию функций

Где

. В этом случае

переходит от

поэтому набор определения (упомянутый как «из» набора) вероятности больше не является тем же. Вы можете вызвать первую функцию

ϕ=θ2 $\phi = \theta^2$

L(.|x)∘g(.) $L(.|x) \circ g(.)$

g(y)=y2 $g(y) = y^2$

g $g$

R $R$

R+ $R^+$

L1(.|) $L_1(.|)$ и второй

потому что они не являются одинаковыми функциями. L2(.|) $L_2(.|)$

— gui11aume

Насколько строгое третье определение? И в чем проблема с размером выборки, который не определен? Поскольку мы говорим

, что, естественно, приводит к появлению соответствующей сигма-алгебры для выборочного пространства

, почему мы не можем иметь параллельное определение вероятностей? P(x1,x2,…,xn∣θ) $P(x_1, x_2, \dotsc, x_n \mid \theta)$

Ωn $\Omega^n$

— Нил Дж

Я думаю, я бы назвал это чем-то другим. Вероятность - это плотность вероятности для наблюдаемого x с учетом значения параметра выраженного как функция от для данного . Я не разделяю мнение о константе пропорциональности. Я думаю, что это вступает в игру только потому, что максимизация любой монотонной функции вероятности дает такое же решение для . Таким образом, вы можете максимизировать для или других монотонных функций, таких как $θ$ $θ$ $x$ $θ$ $cL(θ∣x)$ $c>0$ $\log(L(θ∣x))$ что обычно делается.

— Майкл Р. Черник
источник

Не только максимизация: пропорциональность также играет роль в понятии отношения правдоподобия и в формуле Байеса для байесовской статистики

— Стефан Лоран

Я думал, что кто-то может понизить мой ответ. Но я думаю, что вполне разумно определить вероятность таким образом как окончательную вероятность, не называя ничего пропорциональным вероятности. @ StéphaneLaurent к вашему комментарию о приорах, если функция интегрируема, ее можно нормализовать до плотности. Задний пропорционален вероятности, умноженной на предыдущую. Поскольку апостериор должен быть нормализован путем деления на интеграл, мы могли бы также указать до распределения. Это только в расширенном смысле, что это применяется к неправильным приоры.

— Майкл Р. Черник

Я не совсем уверен, почему кто-то отрицает этот ответ. Похоже, вы пытаетесь ответить на второй вопрос ОП больше, чем на первый. Возможно, это было не совсем понятно для других читателей. Приветствия. :)

— кардинал

@ Майкл Я тоже не вижу необходимости понижать этот ответ. Что касается неинформативных априоров (это еще одно обсуждение и), я намереваюсь открыть новое обсуждение этой темы. Я не буду делать это в ближайшее время, потому что мне нелегко с английским, и мне труднее писать «философию», чем математику.

— Стефан Лоран

@ Стефан: Если вы хотите, пожалуйста, рассмотрите возможность размещения вашего другого вопроса непосредственно на французском языке. На этом сайте есть несколько носителей французского языка, которые, вероятно, помогут перевести любые отрывки, в которых вы не уверены. Сюда входит модератор, а также редактор одного из самых популярных англоязычных журналов статистики. Я с нетерпением жду вопроса.

— кардинал

Вот попытка строгого математического определения:

Пусть случайный вектор , который допускает плотность относительно некоторой меры , на , где для & ; , семейство плотностей на относительно . Тогда для любого определим функцию правдоподобия $X: \Omega \to \mathbb R^n$ $f(x | \theta_0)$ $\nu$ $\mathbb R^n$ $\theta \in \Theta$ $\{f(x|\theta): \theta \in \Theta\}$ $\mathbb R^n$ $\nu$ $x \in \mathbb R^n$ будет ; для ясности, для каждого мы имеем . Можно думать, что является конкретным потенциалом а является «истинным» значением . $L(\theta | x)$ $f(x | \theta)$ $x$ $L_x : \Theta \to \mathbb R$ $x$ $x_{obs}$ $\theta_0$ $\theta$

Пара замечаний по поводу этого определения:

Определение достаточно прочная для обработки дискретных, непрерывных и других видов семейств распределений . $X$
Мы определяем вероятность на уровне функций плотности, а не на уровне распределения вероятностей / мер. Причина этого заключается в том, что плотности не являются уникальными, и оказывается, что это не та ситуация, когда можно перейти к классам эквивалентности плотностей и при этом быть безопасными: разные варианты выбора плотности приводят к разным MLE в непрерывном случае. Однако в большинстве случаев существует естественный выбор семейства плотностей, которые теоретически желательны.
Мне нравится это определение, потому что оно включает в себя случайные переменные, с которыми мы работаем, и по замыслу, поскольку мы должны назначить им распределение, мы также строго встроили понятие «истинного, но неизвестного» значения , которое здесь обозначается . Для меня, как студента, задача быть строгим о вероятности всегда была , как согласовать реальные мировые концепции «истинного» & и «наблюдаемым» с математикой; это часто не помогалось инструкторами, утверждающими, что эти понятия не были формальными, но затем поворачивались и использовали их формально при доказательстве! Таким образом, мы имеем дело с ними формально в этом определении. $\theta$ $\theta_0$ $\theta$ $x_{obs}$
EDIT: Of course, we are free to consider the usual random elements $L(\theta | X)$ , $S(\theta | X)$ and $\mathcal I(\theta | X)$ and under this definition with no real problems with rigor as long as you are careful (or even if you aren't if that level of rigor is not important to you).

— guy
источник

@Xi'an Let

X1,...,Xn $X_1, ..., X_n$ be uniform on

(0,θ) $(0, \theta)$ . Consider two densities

f1(x)=θ−1I[0<x<θ] $f_1 (x) = \theta^{-1} I[0 < x < \theta]$ versus

f2(x)=θ−1I[0≤x≤θ] $f_2 (x) = \theta^{-1} I[0 \le x \le \theta]$ . Both

f1 $f_1$ and

f2 $f_2$ are valid densities for

U(0,θ) $\mathcal U(0, \theta)$ , but under

f2 $f_2$ the MLE exists and is equal to

maxXi $\max X_i$ whereas under

f1 $f_1$ we have

∏jf1(xj|maxxi)=0 $\prod _j f_1 (x_j| \max x_i) = 0$ so that if you set

θ^=maxXi $\hat \theta = \max X_i$ you end up with a likelihood of

0 $0$ , and in fact the MLE doesn't exist because

supθ∏jf1(x|θ) $\sup _\theta \prod _j f_1(x | \theta)$ is not attained for any

θ $\theta$ .

— guy

@guy: thanks, I did not know about this interesting counter-example.

— Xi'an

@guy You said that

supθ∏jf1(xj|θ) $\sup_\theta \prod_j f_1(x_j| \theta)$ is not attained for any

θ $\theta$ . However, this supremum is attained at some point as I show below:

L 1 (θ; x) = \prod j = 1 n f 1 (x j | θ) = θ - n \prod j = 1 n I (0 < x j < θ) = θ - n I (0 < M < θ),

$L_1(\theta;x) = \prod_{j=1}^n f_1(x_j|\theta) = \theta^{-n} \prod_{j=1}^n I\big(0 < x_j < \theta\big) = \theta^{-n}I\big(0< M < \theta\big),$ where

M=max{x1,…,xn} $M = \max \{x_1, \ldots, x_n\}$ . I am assuming that

xj>0 $x_j > 0$ for all

j=1,…,n $j=1,\ldots,n$ . It is simple to see that 1.

L1(θ;x)=0 $L_1(\theta;x) = 0$ , if

0<θ≤M $0<\theta \leq M$ ; 2.

L1(θ;x)=θ−n $L_1(\theta;x) = \theta^{-n}$ , if

$M < \theta < \infty$ . Continuing...

— Alexandre Patriota

@guy: continuing... That is,

$L_1(\theta;x) \in \big[0,M^{-n}\big),$ for all

$\theta \in (0,\infty)$ . We do not have a maximum value but the supremum does exist and it is given by

$\sup_{\theta \in (0,\infty)} L_1(\theta, x) = M^{-n}$ and the argument is

$M = \arg\sup_{\theta \in (0,\infty)} L_1(\theta;x).$ Perhaps, the usual asymptotics are not applied here and some other tolls should be employed. But, the supremum of

$L_1(\theta;x)$ does exist or I missed some very basic concepts.

— Alexandre Patriota

@AlexandrePatriota The supremum exists, obviously, but it is not attained by the function. I'm not sure what the notation

$\arg \sup$ is supposed to mean - there is no argument of

$L_1(\theta; x)$ which yields the

$\sup$ because

$L_1(\theta; M) = 0$ . The MLE is defined as any

$\hat \theta$ which attains the

$\sup$ (typically) and no

$\hat \theta$ attains the

$\sup$ here. Obviously there are ways around it - the asymptotics we appeal to require that there exists a likelihood with such-and-such properties, and there does. It's just

$L_2$ rather than

$L_1$ .

— guy