Почему MLE имеет смысл, учитывая, что вероятность отдельной выборки равна 0?


13

Это какая-то странная мысль, которая у меня возникла при просмотре какой-то старой статистики, и по какой-то причине я не могу придумать ответ.

Непрерывный PDF говорит нам о плотности наблюдаемых значений в любом заданном диапазоне. А именно, например, если , то вероятность того, что реализация попадает между и , просто где - это плотность стандартная нормальная.XN(μ,σ2)ababϕ(x)dxϕ

Когда мы думаем о выполнении MLE-оценки параметра, скажем, , мы записываем общую плотность, скажем, N , случайных величин X_1 .. X_N и дифференцируем логарифмическое правдоподобие относительно \ mu , устанавливаем равным 0 и решаем для \ му . Часто дается интерпретация «даны данные, какой параметр делает эту функцию плотности наиболее вероятной».μNX1..XNμμ

Часть, которая беспокоит меня, такова: у нас есть плотность N rv, и вероятность того, что мы получим конкретную реализацию, скажем, нашу выборку, равна точно 0. Почему даже имеет смысл максимизировать общую плотность, учитывая наши данные ( так как опять вероятность наблюдения нашей фактической выборки точно равна 0)?

Единственная рационализация, которую я мог бы придумать, заключается в том, что мы хотим, чтобы PDF был максимально возможным вокруг нашей наблюдаемой выборки, чтобы интеграл в области (и, следовательно, вероятность наблюдения материала в этой области) был максимальным.


1
По той же причине мы используем плотности вероятности stats.stackexchange.com/q/4220/35989
Тим

Я понимаю (я думаю), почему имеет смысл использовать плотности. Чего я не понимаю, так это того, почему имеет смысл максимально увеличить условную плотность при наблюдении за образцом, вероятность возникновения которого равна 0.
Алекс

2
Поскольку плотности вероятности говорят нам, какие значения относительно более вероятны, чем другие.
Тим

Если у вас есть время, чтобы полностью ответить на вопрос, я думаю, это было бы более полезно для меня и для следующего человека.
Алекс

Потому что, к счастью, вероятность не является вероятностью!
AdamO

Ответы:


18

Вероятность любой выборки, Pθ(X=x) , равна нулю, и все же одна выборка реализуется путем извлечения из распределения вероятностей. Следовательно, вероятность - это неправильный инструмент для оценки выборки и вероятности ее возникновения. Статистическая вероятность, как определено Фишером (1912), основана на предельном аргументе вероятности наблюдения выборки x в интервале длины δ когда δ стремится к нулю (цитата из Aldrich, 1997) :

Олдрич Дж. (1997) Статистическая наука12, 162-176

при перенормировке этой вероятности на δ . Термин «функция правдоподобия» введен только у Фишера (1921 г.), а термин «максимальный уровень правдоподобия» у Фишера (1922 г.).

Несмотря на то, что он шел под наименованием «наиболее вероятное значение» и использовал принцип обратной вероятности (байесовский вывод) с плоским априором, Карл Фридрих Гаусс уже получил в 1809 году оценку максимального правдоподобия для параметра дисперсии нормального распределения. Hald (1999) упоминает несколько других случаев оценки максимального правдоподобия до статьи Фишера 1912 года, в которой был установлен общий принцип.

Позднее обоснование подхода максимального правдоподобия заключается в том, что, поскольку перенормированный логарифмический правдоподобие выборки (x1,,xn)

1ni=1nlogfθ(xi)
сходится к [Закон больших чисел]
E[logfθ(X)]=logfθ(x)f0(x)dx
(гдеf0 обозначает истинную плотность образца iid), максимизация вероятности [как функции отθ ] асимптотически эквивалентна минимизации [вθ ] расходимости Кульбака-Лейблера
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
между истинным распределением выборки iid и семейством распределений, представленных символами fθ .


Спасибо за ответ. Не могли бы вы немного расширить аргумент KL? Я не вижу, как это происходит сразу.
Алекс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.