Логистическая регрессия может быть описана как линейная комбинация
η=β0+β1X1+...+βkXk
это передается через функцию ссылки :g
g(E(Y))=η
где функция ссылки является функцией логита
E(Y|X,β)=p=logit−1(η)
где принимает только значения в а обратные логит-функции преобразуют линейную комбинацию в этот диапазон. На этом классическая логистическая регрессия заканчивается.{ 0 , 1 } ηY{0,1}η
Однако если вспомнить, что для переменных, которые принимают только значения в , то можно рассматривать как . В этом случае выходные данные функции логита можно рассматривать как условную вероятность «успеха», то есть . Распределение Бернулли - это распределение, которое описывает вероятность наблюдения двоичного результата с некоторым параметром , поэтому мы можем описать как{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY
yi∼Bernoulli(p)
Таким образом, с помощью логистической регрессии мы ищем некоторые параметры которые вместе с независимыми переменными образуют линейную комбинацию . В классической регрессии (мы предполагаем, что функция связи является тождественной функцией), однако для модели которая принимает значения в нам нужно преобразовать так, чтобы соответствовать в диапазоне .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]
Теперь, чтобы оценить логистическую регрессию байесовским способом, вы выбираете некоторые априоры для параметров как при линейной регрессии (см. Kruschke et al, 2012 ), а затем используете функцию logit для преобразования линейной комбинации , чтобы использовать ее вывод как Параметр распределения Бернулли, который описывает вашу переменнуюИтак, да, вы на самом деле используете уравнение и функцию логит-линка так же, как в частотном случае, а все остальное работает (например, выбирая априоры), как при оценке линейной регрессии по Байесовскому методу. η p YβiηpY
Простой подход к выбору приоров - это выбрать нормальные распределения (но вы также можете использовать другие распределения, например, или распределение Лапласа для более надежной модели) для с параметрами и , которые заданы или приняты из иерархических приоры . Теперь, имея определение модели, вы можете использовать программное обеспечение, такое как JAGS, для выполнения моделирования Марковской цепи Монте-Карло, чтобы вы могли оценить модель. Ниже я публикую код JAGS для простой логистической модели (см. Здесь дополнительные примеры).β i μ i σ 2 itβiμiσ2i
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Как видите, код напрямую переводится в определение модели. Что делает программное обеспечение, так это то, что оно извлекает некоторые значения из нормальных априорных значений для, a
а b
затем использует эти значения для оценки p
и, наконец, использует функцию правдоподобия, чтобы оценить, насколько вероятны ваши данные с учетом этих параметров (это когда вы используете теорему Байеса, см. Здесь для более подробное описание).
Базовая модель логистической регрессии может быть расширена для моделирования зависимости между предикторами с использованием иерархической модели (включая гиперприоры ). В этом случае вы можете нарисовать из многомерного нормального распределения, которое позволяет нам включать информацию о ковариантности между независимыми переменными ΣβiΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼MVN⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢⎢σ20σ1,0⋮σk,0σ0,1σ21⋮σk,1……⋱…σ0,kσ1,k⋮σ2k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... но это в деталях, поэтому давайте остановимся прямо здесь.
Здесь «байесовская» часть выбирает приоры, использует теорему Байеса и определяет модель в вероятностных терминах. Смотрите здесь для определения «байесовской модели» и здесь для некоторой общей интуиции о байесовском подходе . Вы также можете заметить, что определение моделей довольно просто и гибко при таком подходе.
Kruschke, JK, Aguinis, H. & Joo, H. (2012). Пришло время: байесовские методы анализа данных в организационных науках. Организационные методы исследования, 15 (4), 722-752.
Гельман А., Джакулин А., Питтау Г.М. и Су Ю.С. (2008). Слабоинформативное предварительное распределение по умолчанию для логистических и других регрессионных моделей. Анналы прикладной статистики, 2 (4), 1360–1383.