Имеет ли логарифмическая вероятность в GLM гарантированную сходимость к глобальным максимумам?


16

Мои вопросы:

  1. Обязательно ли обобщенные линейные модели (GLM) сходятся к глобальному максимуму? Если так, то почему?
  2. Кроме того, какие ограничения существуют для функции связи для обеспечения выпуклости?

Мое понимание GLM состоит в том, что они максимизируют крайне нелинейную функцию правдоподобия. Таким образом, я бы предположил, что существует несколько локальных максимумов, и набор параметров, к которому вы сходитесь, зависит от начальных условий для алгоритма оптимизации. Однако после некоторых исследований я не нашел ни одного источника, который бы указывал на наличие нескольких локальных максимумов. Кроме того, я не очень знаком с методами оптимизации, но я знаю, что метод Ньютона-Рафсона и алгоритм IRLS очень склонны к локальным максимумам.

Пожалуйста, объясните, если это возможно, как на интуитивной, так и на математической основе!

РЕДАКТИРОВАТЬ: dksahuji ответил на мой первоначальный вопрос, но я хочу добавить следующий вопрос [ 2 ] выше. («Какие ограничения существуют в функции связи для обеспечения выпуклости?»)


Я думаю, что некоторые ограничения должны быть необходимы, прежде чем это может быть так. Что является источником для заявления?
Glen_b

Несколько сайтов, казалось, подразумевали это, однако я не мог найти ничего, что упомянуло бы это прямо, поэтому я также приветствую его опровержение!
DankMasterDan

до тех пор, пока вероятность хорошо определена повсюду в области (и игнорируя некоторые тангенциальные числовые проблемы), я думаю, что да. При этих условиях гессиан <0 везде в области, поэтому вероятность в целом вогнута. Кстати, функция не является «сильно нелинейной» по параметрам, и это важно.
user603

@ user603 каков твой источник / доказательство того, что гессиан <0 везде?
DankMasterDan

Логистическая, пуассоновская и гауссовская регрессии часто выпуклые при «хорошей» функции связи. Однако при произвольной функции связи они не являются выпуклыми.
Memming

Ответы:


11

Определение экспоненциальной семьи:

п(Икс|θ)знак равночас(Икс)ехр(θTφ(Икс)-A(θ)),

A(θ)

  1. dAdθзнак равноЕ[φ(Икс)]

  2. d2Adθ2знак равноЕ[φ2(Икс)]-Е[φ(Икс)]2знак равноvaр(φ(Икс))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

θT[ϕ(D)]A(θ)

Существует обобщенная версия, называемая изогнутым экспоненциальным семейством, которая также будет аналогичной. Но большинство доказательств в канонической форме.


Значит ли это, что у GLM есть уникальный глобальный минимум-номатер, какая функция связи выбрана (включая неканонические)?
DankMasterDan

1
p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ

Обратите внимание, что вопрос касается скорее конвергенции, чем просто существования, но с некоторыми ограничениями, что тоже может быть выполнимо.
Glen_b

@Glen_b Можете ли вы уточнить? Я не знаю таких ограничений. Может быть, что-то вроде ограничения на размер шага в оптимизаторе, основанном на градиенте, чтобы гарантировать сходимость в случае вогнутой функции.
dksahuji

1
@Glen_b Это может быть правдой в целом, но я не вижу никакой причины, чтобы вогнутая функция не сходилась к оптимуму в пределах небольшого допустимого значения. Но я бы сказал, что у меня нет никакого практического опыта с этим, и я только начал. :)
dksahuji
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.