Всегда ли есть максимизатор для любой проблемы MLE?

23

Интересно, всегда ли есть максимизатор для какой-либо задачи оценки максимального (логарифмического) правдоподобия? Другими словами, есть ли какое-то распределение и некоторые его параметры, для которых у проблемы MLE нет максимизатора?

Мой вопрос исходит от утверждения инженера о том, что функция стоимости (вероятность или логарифмическая вероятность, я не уверен, что предполагалось) в MLE всегда вогнута и поэтому всегда имеет максимизатор.

Спасибо и всего наилучшего!

maximum-likelihood optimization

— Тим
источник

8

(+1) Вы уверены, что в вашем вопросе не было оговорок? В нынешнем виде утверждение инженера ложно во многих отношениях, и почти трудно понять, с чего начать. :)

— кардинал

@cardinal: я в основном записал то, что услышал. Но я признаю, что могу что-то упустить.

— Тим

5

Контрпример (выпуклость): Пусть

это

. Хотя существует уникальная MLE, ни вероятность, ни логарифмическая вероятность не являются выпуклыми в

.

X_{1}, X_{2}, \dots, X_{n}

$X_1,X_2,\ldots,X_n$

N (0, σ^{2})

$\mathcal N(0,\sigma^2)$

σ^{2}

$\sigma^2$

— кардинал

3

@Tim Логистическая регрессия является базовым примером, где MLE не всегда существует. Кроме того, для некоторых функций связи логарифмическая вероятность не является вогнутой.

30

Возможно, инженер имел в виду канонические экспоненциальные семейства: в их естественной параметризации пространство параметров является выпуклым, а логарифмическое правдоподобие вогнутым (см. Thm 1.6.3 в « Математической статистике Биккеля и Доксума» , том 1 ). Кроме того, при некоторых мягких технических условиях (в основном, что модель имеет «полный ранг» или, что то же самое, что естественный параметр идентифицируемый), функция логарифмического правдоподобия является строго вогнутой, что подразумевает, что существует уникальный максимизатор. (Следствие 1.6.2 в той же ссылке.) [Кроме того, лекционные заметки, цитируемые @biostat, указывают на то же.]

Обратите внимание, что естественная параметризация канонического экспоненциального семейства обычно отличается от стандартной параметризации. Таким образом, хотя @cardinal указывает, что логарифмическая вероятность для семейства не является выпуклой в , она будет вогнутой по естественным параметрам: и . $\mathcal{N}(\mu,\sigma^2)$ $\sigma^2$ $\eta_1 = \mu / \sigma^2$ $\eta_2 = -1/\sigma^2$

— DavidR
источник

2

(+1) Хороший ответ. Как было указано в моих комментариях к ФП, я надеюсь, что этот ответ будет опубликован (даже контрпример был тщательно выбран с учетом этого). :)

— кардинал

2

Можете ли вы показать это в многомерной гауссовой модели?

— Рой

6

Функция правдоподобия часто достигает максимума для оценки параметра интереса. Тем не менее, иногда MLE не существует, например, для распределения гауссовой смеси или непараметрических функций, которые имеют более одного пика (двух- или многомодальное). Я часто сталкиваюсь с проблемой оценки популяционной генетики неизвестных параметров, т. Е. Скорости рекомбинации, эффекта естественного отбора.

Одной из причин @cardinal также является неограниченное параметрическое пространство.

Более того, я бы порекомендовал следующую статью , см. Раздел 3 (для функции) и рис.3. Тем не менее, есть довольно полезная и удобная информация о документе MLE.

— Биостат
источник

3

Я думаю, что я неправильно понимаю ваш пример. Какие квадратичные функции имеют более одного пика?

— кардинал

@cardinal: Позвольте мне попытаться объяснить. Вы указываете на то, что неограниченный параметр является одной из причин того, что функция правдоподобия не достигает максимума даже в простом примере нормального распределения. Тем не менее, моя точка зрения заключается в том, что с точки зрения оптимизации существует популярная проблема локальных и глобальных максимумов. Я часто сталкивался с этой проблемой в популяционной генетике при оценке уровня рекомбинации. Кроме того увидеть этот раздел статьи 3 (для функции) и рис 3. В статье URL: citeseerx.ist.psu.edu/viewdoc/...

— BioStat

Таким образом, вы говорите, что «квадратичные функции с более чем одним пиком», возможно, являются ссылкой на модель гауссовой смеси? Если это так, редактирование, вероятно, может устранить некоторую путаницу.

— кардинал

Сейчас оно обновлено.

— Биостат

2

(+1) Для обновления. Отметим, что в моделях гауссовой смеси в общем случае присутствуют как неограниченная вероятность, так и множественные локальные максимумы. Что еще хуже, вероятность становится неограниченной при особенно патологических решениях. В целом, множественные максимумы могут быть не такими уж серьезными проблемами. В некоторых случаях эти максимумы сходятся друг с другом достаточно быстро, поэтому выбор любого из них все же может дать разумную (даже эффективную) оценку интересующего параметра асимптотически.

— кардинал

3

Я признаю, что могу что-то упустить, но -

Если это проблема оценки, и цель состоит в том, чтобы оценить неизвестный параметр, и параметр, как известно, происходит из некоторого замкнутого и ограниченного множества, и функция правдоподобия является непрерывной, то для этого параметра должно существовать значение, которое максимизирует функция правдоподобия. Другими словами, максимум должен существовать. (Он не должен быть уникальным, но должен существовать хотя бы один максимум. Нет гарантии, что все локальные максимумы будут глобальными максимумами, но это не является обязательным условием существования максимума.)

Я не знаю, должна ли функция правдоподобия всегда быть выпуклой, но это не является обязательным условием существования максимума.

Если бы я что-то упустил, я бы хотел услышать, что мне не хватает.

— DW
источник

4

При отсутствии дополнительных предположений утверждение, данное относительно максимумов, является ложным. Например, если пространство параметров замкнуто и ограничено, а функция правдоподобия непрерывна в параметрах, то должен существовать максимум. При отсутствии любого из этих дополнительных условий результат не обязательно должен соблюдаться. Что касается выпуклости, то она терпит неудачу даже в самых простых и распространенных примерах. :)

— кардинал

2

(+1) Ограниченность пространства параметров не выполняется даже во многих простых случаях. Но для практических целей мы обычно знаем, что наши параметры ограничены. :)

— кардинал

3

Возможно, кто-то найдет следующий простой пример полезным.

$\theta$ $\theta \in (0,1)$ $(0,1)$ $\theta$

{\begin{cases} θ & heads \\ 1 - θ & tails \end{cases} .

$\begin{cases} \theta & \text{heads} \\ 1-\theta & \text{tails} \end{cases} .$

θ

$\theta$

(0, 1)

$(0,1)$

— MEF
источник