Оценка максимального правдоподобия (MLE) в терминах непрофессионала


92

Может ли кто-нибудь объяснить мне подробно об оценке максимального правдоподобия (MLE) в терминах непрофессионала? Я хотел бы знать основную концепцию, прежде чем перейти к математическому выводу или уравнению.


9
Неясно, какой ответ вы ищете. Вы знаете, какова вероятность, например? Если нет, лучше сначала узнать это.
Glen_b

4
Кроме того, я думаю, что любой ответ, не связанный с математикой на каком-то уровне, будет неадекватным.
gregmacfarlane

1
Попробуйте эту ссылку . У этого есть довольно четкое объяснение о MLE, MAP, EM. Я думаю, что она охватывает основную идею MLE в простых терминах.
Нимиш Кулькарни,

2
Я думаю, что это дает очень интуитивное объяснение MLE. Я бы сказал, что если концепции все еще неясны, было бы идеально освежить некоторые основные статистические данные.
KartikKannapur

Ответы:


76

Скажем, у вас есть некоторые данные. Скажем, вы готовы предположить, что данные поступают из некоторого распределения - возможно, из Гаусса. Существует бесконечное число различных гауссиан, из которых могли бы поступить данные (которые соответствуют комбинации бесконечного числа средних и дисперсий, которые может иметь гауссовское распределение). MLE выберет гауссову (т. Е. Среднее значение и дисперсию), которая «наиболее соответствует» вашим данным (точное значение последовательности объяснено ниже).

Итак, скажем, у вас есть набор данных . Наиболее последовательный гауссов, из которого эти данные могли прийти, имеет среднее значение 3 и дисперсию 16. Он мог бы быть взят из некоторого другого гауссиана. Но один со средним значением 3 и дисперсией 16 наиболее соответствует данным в следующем смысле: вероятность получения конкретных значений вы наблюдали, больше при этом выборе среднего значения и дисперсии, чем при любом другом выборе.y={1,3,7}yy

Переход к регрессии: вместо среднего значения, являющегося константой, среднее представляет собой линейную функцию данных, как определено уравнением регрессии. Итак, скажем, у вас есть данные вроде вместе с ранее. Средним значением этого гауссова является теперь модель подогнанной регрессии , гдеx={2,4,10}y & beta ; Xβ^& beta ; = [ - 1,9 , 0,9 ]β^=[1.9,.9]

Переход к GLM: замените гауссово другим распределением (из экспоненциального семейства). Среднее значение теперь является линейной функцией данных, как определено уравнением регрессии, преобразованным функцией связи. Итак, это , где для логита (с биномиальными данными).g(Xβ)g(x)=ex/(1+ex)


28
« MLE выберет гауссиан, который является наиболее вероятным, учитывая ваши данные». Хммм, не правда ли: MLE выберет гауссиан, при котором ваши данные наиболее вероятны? Что немного отличается от выбора «наиболее вероятного гаусса» ... разве выбор наиболее вероятного гаусса не требует рассмотрения предыдущих убеждений ?
Джейк Уэстфолл

9
@ACD Я не думаю, что это неполно, но дает правильную интуицию. Например, я не вижу проблем с тем, чтобы не обсуждать особые случаи, например, что функция правдоподобия имеет более одного максимума. Но разница между распределением, наиболее вероятно производящим наблюдаемые данные, и наиболее вероятным распределением, учитывая данные, является очень фундаментальной разницей между частыми и байесовскими выводами. Поэтому, если вы объясните это так, вы просто создаете камень преткновения на будущее.
Эрик

6
Конечно, но труднее понять более правильное концептуальное объяснение, чем написанное вами? Я так не думаю. Я думаю, что большинство ваших ответов просто отлично, но я бы просто призвал вас, ради потомков, просто немного отредактировать некоторые фразы, чтобы избежать обсуждения «наиболее вероятного гауссова», и вместо этого указать на то, что мы хотим быть «вероятным» (в разговорной речи ) при МЛ - это не гипотеза, а данные. Я думаю, что это может быть незначительным, но важным изменением вашего в остальном хорошего ответа.
Джейк Уэстфолл

7
@Max: Большое спасибо за то, что наконец-то пошли дальше и исправили этот ответ! Я думаю, что было бы целесообразно прямо написать здесь для будущих читателей: критика, выраженная в вышеупомянутых комментариях Эрика и Джейка, больше не применяется после того, как ответ был отредактирован.
говорит амеба: восстанови Монику

7
Просто чтобы начать: я ценю все внимание и улучшения, которые были даны моему ответу. Извиняюсь за то, что изначально колебался относительно правок (что хорошо) - я не хотел видеть, как проста мой ответ. Во многом этого не произошло.
generic_user

67

Оценка максимального правдоподобия (MLE) - это метод поиска наиболее вероятной функции, которая объясняет наблюдаемые данные. Я думаю, что математика необходима, но не позволяйте ей пугать вас!

Скажем, у нас есть набор точек в плоскости , и мы хотим знать параметры функции β и σ, которые, скорее всего, соответствуют данным (в этом случае мы знаем функцию, потому что я указал ее для создания этого примера, но терпите меня).x,yβσ

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

точки данных

xβσ2y=N(xβ,σ2)

12πσ2exp((yixiβ)22σ2)

βσ(xi,yi)L

L=i=1nyi=i=1n12πσ2exp((yixiβ)22σ2)
log(L)=i=1nn2log(2π)n2log(σ2)12σ2(yixiβ)2

θ=(β,σ)

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

βσ

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

поверхность вероятности

0,β=2.7,σ=1.3

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

lmσ2

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16

Спасибо @gregmacfarlane за этот хороший и полезный ответ. Незначительный момент: не должны ли мы сначала определить бета и sigma2 в коде строки R data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? А 0 +полезно?
emeryville

1
Да betaи sigma2должно быть определено для этого кода для запуска. Я спрятал их, чтобы мы могли «обнаружить» параметры, которые почти всегда неизвестны при запуске MLE.
gregmacfarlane

Вы также правы, 0 +что на самом деле ничего не делает ничего; Я просто включил его, потому что регрессионные модели обычно имеют перехват. И если MLE пытались оптимизировать beta, sigma2 и alpha я не смог бы показать симпатичный поверхностный график (если вы не знаете пакет R, который будет
отображаться

2
@gregmacfarlane отличный ответ и мне очень помог. Но есть некоторые ошибки по сравнению с стандартным отклонением. Пожалуйста, смотрите здесь. stats.stackexchange.com/questions/267534/…
Du

2
@ hxd1011 Спасибо за указание на эту ошибку; Я исправил ошибку.
gregmacfarlane

29

Оценка максимального правдоподобия (ML) параметра - это значение этого параметра, при котором ваши фактические наблюдаемые данные наиболее вероятны по сравнению с любыми другими возможными значениями параметра.

Идея состоит в том, что существует любое количество «истинных» значений параметров, которые могли бы привести к вашим фактически наблюдаемым данным с некоторой ненулевой (хотя, возможно, небольшой) вероятностью. Но оценка ML дает значение параметра, которое привело бы к вашим наблюдаемым данным с наибольшей вероятностью.

Это не следует путать со значением параметра, который, скорее всего, фактически произвел ваши данные!

OH

Вы должны помнить, что «вероятность» - это технический термин. Вероятность H, Pr (O | H) и апостериорная вероятность H, Pr (H | O) - это разные величины, и они могут иметь разные значения. Вероятность Н - это вероятность того, что Н дарует О, а не вероятность того, что О дарует H. Предположим, вы слышите шум, исходящий с чердака вашего дома. Вы принимаете во внимание гипотезу, что там есть гремлины. Вероятность этой гипотезы очень высока, так как, если на чердаке есть гремлины, вероятно, будет шум. Но, конечно, вы не думаете, что шум делает очень вероятным, что там есть гремлины в боулинге. В этом примере Pr (O | H) высокий, а Pr (H | O) низкий. У гипотезы Гремлина высокая вероятность (в техническом смысле), но низкая вероятность.

В приведенном выше примере ML предпочел бы гипотезу Гремлина. В этом конкретном комическом примере это явно плохой выбор. Но во многих других более реалистичных случаях оценка ОД может быть очень разумной.

Ссылка

Sober, E. (2008). Свидетельство и эволюция: логика науки. Издательство Кембриджского университета.


8
Мне кажется, это первый ответ, который ясно и просто разъясняет этот важный момент. Обратите внимание, что это только «привело бы к вашим данным наблюдений с наибольшей вероятностью », если ваши данные дискретны (например, биномиальные данные), но «привело бы к вашим данным наблюдений с самой высокой плотностью соединений », если ваши данные непрерывны (как нормальные данные).
gung - Восстановить Монику

6
Спасибо @gung. Я знаю о технических деталях, о которых вы упомянули, но я был немного обеспокоен тем, что любое обсуждение "плотности соединений" будет немного натянутым на "условия непрофессионала" ...
Джейк Уэстфолл

Я согласен с вами, и я подумал, что вы знали об этом. Я просто подумал, что упомяну об этом, так как он появился в другом месте в этой теме.
gung - Восстановить Монику

17

MLE - это значение параметра, представляющего интерес, который максимизирует вероятность наблюдения данных, которые вы наблюдали. Другими словами, именно значение параметра делает наблюдаемые данные наиболее вероятными для наблюдения.


2
А что если функция правдоподобия, которая таким образом максимизируется, с другой стороны, является функцией плотности вероятности от непрерывной случайной величины? MLE все еще максимизирует вероятность? И если нет, что это делает?
Алекос Пападопулос

@AlecosPapadopoulos Насколько я понимаю, функцию правдоподобия можно считать функцией вероятности параметра, а MLE - это значение параметра, которое максимизирует эту функцию вероятности. Однако ваш вопрос говорит о том, что есть больше нюансов?
Гейзенберг

4
@ Heisenberg В ответе функция правдоподобия рассматривается как объединенная функция вероятности выборки (для которой ML обеспечивает максимум по параметрам и, таким образом, максимизирует вероятность для любой выборки). И это правильно, когда rv's дискретны, но не когда они непрерывны, так как плотность соединения, по построению , не является общей вероятностью. Я бы не охарактеризовал это как «нюанс», это принципиальная разница между дискретным и непрерывным миром.
Алекос Пападопулос

@AlecosPapadopoulos я вижу. Таким образом, вы не согласны с использованием слова «функция вероятности» против «функции плотности». Это верно.
Гейзенберг

ϵϵϵ

10

Это есть можно сказать что - то без использования (много) математики, но для реальных статистических приложений максимального правдоподобия вам нужна математика.

Оценка максимального правдоподобия связана с тем, что философы называют выводом для лучшего объяснения или похищения . Мы используем это все время! Обратите внимание, я не говорю, что максимальная вероятность - это похищение, этот термин гораздо шире, и некоторые случаи байесовской оценки (с эмпирическим априором), вероятно, также можно рассматривать как похищение. Некоторые примеры взяты из http://plato.stanford.edu/entries/abduction/#Aca См. Также https://en.wikipedia.org/wiki/Abductive_reasoning (В информатике «похищение» также используется в контексте не -пробелистические модели.)

  1. «Вы случайно знаете, что у Тима и Гарри недавно случился ужасный скандал, который положил конец их дружбе. Теперь кто-то говорит вам, что она только что видела, как Тим и Гарри бегают трусцой вместе. Лучшее объяснение этому, что вы можете придумать, состоит в том, что они придумали. Вы делаете вывод, что они снова друзья. Это потому, что этот вывод делает наблюдение, которое вы пытаетесь объяснить, более вероятным, чем под альтернативой, что они все еще не говорят.

Другой пример: вы работаете в детском саду, и однажды ребенок начинает странным образом ходить и говорить, что он сломал ноги. Вы изучаете и не находите ничего плохого. Затем вы можете сделать разумный вывод о том, что один из его родителей сломал свои ноги, поскольку дети часто приводят себя в действие, как описано, так что это «вывод к лучшему объяснению» и пример (неформальной) максимальной вероятности. (и, конечно, это объяснение может быть неправильным, оно только вероятное, не уверенное. Похищение / максимальная вероятность не могут дать достоверных выводов).

Похищение - это поиск шаблона в данных, а затем поиск возможных теорий, которые могут сделать эти шаблоны вероятными. Тогда выбор возможного объяснения, которое делает наблюдаемый паттерн максимально вероятным, - это просто максимальная вероятность!

Главный пример похищения в науке - эволюция . Нет единственного наблюдения, которое подразумевает эволюцию, но эволюция делает наблюдаемые закономерности более вероятными, чем другие объяснения.

Другой типичный пример - медицинский диагноз? Какое возможное заболевание делает наблюдаемую картину симптомов наиболее вероятной? Опять же, это тоже максимальная вероятность! (Или, в этом случае, может быть, байесовская оценка лучше подходит, мы должны принять во внимание априорную вероятность различных возможных объяснений). Но это техническая составляющая, в этом случае мы можем иметь эмпирические априорные значения, которые можно рассматривать как естественную часть статистической модели, а то, что мы называем моделью , то, что мы называем предшествующим, - это произвольное (*) статистическое соглашение.

Чтобы вернуться к первоначальному вопросу об объяснении термина MLE для непрофессионала, приведу один простой пример: когда моим дочерям было 6 и 7 лет, я спросил их об этом. Мы сделали две урны (две обувные коробки), в одну положили 2 чёрных шара, 8 красных, в другую числа, где поменялись местами. Затем мы смешали урны и случайным образом нарисовали одну урну. Тогда мы взяли наугад один мяч из этой урны. Это было красное.

Тогда я спросил: из какой урны вы думаете, что этот красный шар был взят? Подумав примерно одну секунду, они ответили (в хоре): От того, у кого 8 красных шаров!

Тогда я спросил: почему вы так думаете? И заново, примерно через одну секунду (снова в туши): «Потому что тогда легче нарисовать красный шар!». То есть легче = более вероятно . Это была максимальная вероятность (это простое упражнение для написания вероятностной модели), и это «вывод к лучшему объяснению», то есть к похищению.

(*) Почему я говорю «произвольно»? Чтобы продолжить проблему медицинской диагностики, скажем, что пациент - это человек с некоторыми трудностями в диагностике состояния, которое врач раньше не видел. Затем, скажем, в разговоре с пациентом выясняется, что он недавно побывал в тропической Африке. Это новая часть данных, но ее эффект в типичных моделях (используемых в такой ситуации, будь то формальной или неформальной) будет состоять в том, чтобы изменить априор трудных возможных объяснений, так как тропические болезни, такие как малярия, теперь будут расти априорная вероятность. Таким образом, новые данные поступают на анализ в предыдущем .


поиск «похищения мышления и оценки максимального правдоподобия» дает много релевантных просмотров.
kjetil b halvorsen

1
(1/2) Привет kjetil, это фантастический ответ, и я ценю это. (Кроме того, реклама о ваших дочерях очень милая.) Во всяком случае, я изо всех сил пытаюсь выстроить свое собственное здравое понимание «вероятности», и я сформулировал свой вопрос здесь .
Creatron

1
L(θ|x)=P(x|θ)

9

θθ

θθθ

(Если данные непрерывны, читайте «плотность вероятности» для «вероятности». Поэтому, если они измеряются в дюймах, плотность будет измеряться в вероятности на дюйм.)


3
y

@ DimitriyV.Masterov Действительно, это не так. Даже когда вы можете, если я правильно помню, вероятность была определена только (по-моему, Фишером) «с точностью до мультипликативной константы».
Glen_b

@Dimitriy, хорошая мысль; Я добавил это.
Scortchi - Восстановить Монику

1
@Glen, Для большинства целей - тесты отношения правдоподобия, оценка максимального правдоподобия - вы можете отбросить константу. Для сравнения AIC между не вложенными моделями вы не можете. Не думайте, что в любом случае это должно входить в определение непрофессионала.
Scortchi - Восстановить Монику

1
Пока вы отбрасываете ту же константу, вы все еще можете.
Glen_b

6

Давайте поиграем в игру: я нахожусь в темной комнате, никто не может видеть, что я делаю, но вы знаете, что либо (а) я бросаю кубик и считаю количество «1» как «успех», либо (б) я бросаю монетку и я считаю количество голов как «успех».

Как я уже сказал, вы не можете видеть, какой из двух я делаю, но я даю вам только одну единственную информацию: я говорю вам, что я бросил кубик 100 раз, или я бросил монету 100 раз, и у меня было 17 успехов. ,

Вопрос состоит в том, чтобы угадать, бросил ли я кубик или бросил монету.

Вы, вероятно, ответите, что я бросил кости.

Если вы это сделаете, то вы, вероятно, «сделали предположение, максимизировав вероятность», потому что, если я наблюдаю 17 успехов из 100 экспериментов, более вероятно, что я бросил кость, а не бросил монету.

Итак, что вы сделали, взяли это значение «вероятности успеха» (1/6 для кости и 1/2 для монеты), что позволяет с наибольшей вероятностью наблюдать 17 успехов из 100. «Более вероятно» означает, что вероятность того, что у вас будет 17 раз «1» в 100 бросках костей, выше, чем вероятность получить 17 голов из 100 бросков монет.


Как я уже сказал в своем ответе, «похищение» или «вывод на лучшее объяснение».
kjetil b halvorsen

@kjetil b halvorsen: Я не понимаю, что ты хочешь сказать?

Я только пытаюсь сравнить с моим ответом выше. Эти термины используются в других областях (философия, CS) для более или менее той же идеи: выберите объяснение, которое в целом лучше всего соответствует фактам, с вероятностной моделью, которая приводит к максимальной вероятности.
kjetil b halvorsen

@kjetil b halvorsen: могу ли я сделать вывод, что мой пример в порядке? Сказать то же самое с точки зрения непрофессионала :-)?

1

XμμμLμfμ

L(μ|X)=i=1Nf(xi,μ)

или логарифмическая вероятность:

lnL(μ|X)=i=1Nlnf(xi,μ)

μf

μ

пример

Сначала давайте сгенерируем поддельные данные:

set.seed(123)
x <- rnorm(1000, 1.78)

μX

llik <- function(mu) sum(log(dnorm(x, mu)))

μ

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

То же самое может быть достигнуто быстрее с помощью алгоритма оптимизации, который ищет максимальное значение функции более умным способом, чем грубая сила . Существует множество таких примеров, например, один из самых основных в R optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

введите описание изображения здесь

μ1.78μoptimize

Этот пример показывает, как вы можете использовать несколько подходов, чтобы найти значение, которое максимизирует функцию правдоподобия, чтобы найти «лучшее» значение вашего параметра.


0

{y1,y2,,yn}θ={μ,σ2}{y1,y2,,yn}θ={μ,σ2}p(y1,y2,,yn|θ)

L(θ|y1,y2,,yn)θL(θ)θ{μ,σ2}L{μ,σ2}L(θ)


0

Предположим, у вас есть монета. Подбрасывание может дать либо головы, либо хвосты. Но вы не знаете, честная ли это монета. Таким образом, вы бросаете его 1000 раз. Он поднимается как голова 1000 раз, а не как хвост.

0.52000

MLE пытается помочь вам найти лучшее объяснение в такой ситуации - когда у вас есть какой-то результат, и вы хотите выяснить, какое значение параметра, скорее всего, даст этот результат. Здесь у нас есть 2000 голов из 2000 бросков - поэтому мы использовали бы MLE, чтобы выяснить, какая вероятность получения головы лучше всего объясняет получение 2000 голов из 2000 бросков.

Это Оценщик максимального правдоподобия . Он оценивает параметр (здесь это функция распределения вероятностей), который, скорее всего , дал бы результат, на который вы сейчас смотрите.

1


-1

Я понимаю MLE так: вы можете видеть только то, что природа хочет, чтобы вы видели. Вещи, которые вы видите, являются фактами. Эти факты имеют основополагающий процесс, который породил его. Эти процессы скрыты, неизвестны, должны быть обнаружены. Тогда возникает вопрос: учитывая наблюдаемый факт, какова вероятность того, что процесс P1 породил его? Какова вероятность того, что процесс P2 породил его? И так далее ... Одна из этих вероятностей будет максимальной из всех. MLE - это функция, которая извлекает эту максимальную вероятность.

Подумайте о подбрасывании монеты; монета смещена. Никто не знает степень предвзятости. Может варьироваться от o (все хвосты) до 1 (все головы). Честная монета будет 0,5 (голова / хвост одинаково вероятны). Когда вы делаете 10 бросков и наблюдаете 7 голов, MLE - это та степень смещения, которая с большей вероятностью приведет к наблюдаемому факту 7 голов в 10 бросках.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.