Логистическая регрессия может быть описана как линейная комбинация
η=β0+β1X1+...+βkXk
это передается через функцию ссылки :g
g(E(Y))=η
где функция ссылки является функцией логита
E(Y|X,β)=p=logit−1(η)
где принимает только значения в а обратные логит-функции преобразуют линейную комбинацию в этот диапазон. На этом классическая логистическая регрессия заканчивается.{ 0 , 1 } ηY{0,1}η
Однако если вспомнить, что для переменных, которые принимают только значения в , то можно рассматривать как . В этом случае выходные данные функции логита можно рассматривать как условную вероятность «успеха», то есть . Распределение Бернулли - это распределение, которое описывает вероятность наблюдения двоичного результата с некоторым параметром , поэтому мы можем описать как{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY
yi∼Bernoulli(p)
Таким образом, с помощью логистической регрессии мы ищем некоторые параметры которые вместе с независимыми переменными образуют линейную комбинацию . В классической регрессии (мы предполагаем, что функция связи является тождественной функцией), однако для модели которая принимает значения в нам нужно преобразовать так, чтобы соответствовать в диапазоне .X η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]
Теперь, чтобы оценить логистическую регрессию байесовским способом, вы выбираете некоторые априоры для параметров как при линейной регрессии (см. Kruschke et al, 2012 ), а затем используете функцию logit для преобразования линейной комбинации , чтобы использовать ее вывод как Параметр распределения Бернулли, который описывает вашу переменнуюИтак, да, вы на самом деле используете уравнение и функцию логит-линка так же, как в частотном случае, а все остальное работает (например, выбирая априоры), как при оценке линейной регрессии по Байесовскому методу. η p YβiηpY
Простой подход к выбору приоров - это выбрать нормальные распределения (но вы также можете использовать другие распределения, например, или распределение Лапласа для более надежной модели) для с параметрами и , которые заданы или приняты из иерархических приоры . Теперь, имея определение модели, вы можете использовать программное обеспечение, такое как JAGS, для выполнения моделирования Марковской цепи Монте-Карло, чтобы вы могли оценить модель. Ниже я публикую код JAGS для простой логистической модели (см. Здесь дополнительные примеры).β i μ i σ 2 itβiμiσ2i
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Как видите, код напрямую переводится в определение модели. Что делает программное обеспечение, так это то, что оно извлекает некоторые значения из нормальных априорных значений для, aа bзатем использует эти значения для оценки pи, наконец, использует функцию правдоподобия, чтобы оценить, насколько вероятны ваши данные с учетом этих параметров (это когда вы используете теорему Байеса, см. Здесь для более подробное описание).
Базовая модель логистической регрессии может быть расширена для моделирования зависимости между предикторами с использованием иерархической модели (включая гиперприоры ). В этом случае вы можете нарисовать из многомерного нормального распределения, которое позволяет нам включать информацию о ковариантности между независимыми переменными ΣβiΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼MVN⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢⎢σ20σ1,0⋮σk,0σ0,1σ21⋮σk,1……⋱…σ0,kσ1,k⋮σ2k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... но это в деталях, поэтому давайте остановимся прямо здесь.
Здесь «байесовская» часть выбирает приоры, использует теорему Байеса и определяет модель в вероятностных терминах. Смотрите здесь для определения «байесовской модели» и здесь для некоторой общей интуиции о байесовском подходе . Вы также можете заметить, что определение моделей довольно просто и гибко при таком подходе.
Kruschke, JK, Aguinis, H. & Joo, H. (2012). Пришло время: байесовские методы анализа данных в организационных науках. Организационные методы исследования, 15 (4), 722-752.
Гельман А., Джакулин А., Питтау Г.М. и Су Ю.С. (2008). Слабоинформативное предварительное распределение по умолчанию для логистических и других регрессионных моделей. Анналы прикладной статистики, 2 (4), 1360–1383.