Байесовская модель логита - интуитивное объяснение?

Я должен признаться, что раньше я не слышал об этом термине ни в одном из моих классов, старшекурсников или выпускников.

Что значит для логистической регрессии быть байесовским? Я ищу объяснение с переходом от обычной логистики к байесовской логистике, подобное следующему:

Это уравнение в модели линейной регрессии: . $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Это уравнение в модели логистической регрессии: . Это делается, когда у категоричен. $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Что мы сделали, так это изменили на . $E(y)$ $\ln(\frac{E(y)}{1-E(y)})$

Итак, что же сделано с моделью логистической регрессии в байесовской логистической регрессии? Я предполагаю, что это не связано с уравнением.

Этот предварительный просмотр книги, кажется, определяет, но я действительно не понимаю. Что это все за вещи, вероятности? Что такое ? Может ли кто-нибудь объяснить эту часть книги или байесовскую модель логита по-другому? $\alpha$

Примечание: я уже об этом спрашивал, но не очень хорошо отвечал.

— BCLC
источник

Я не хочу помещать это в ответ, потому что я думаю, что @Tim покрыл большую часть этого. Единственное, чего не хватает в этом отличном ответе, так это в том, что в байесовской логистической регрессии и в байесовских обобщенных линейных моделях (GLM) в более общем смысле предшествующие распределения размещаются не только по коэффициентам, но и по дисперсиям и ковариациям этих коэффициентов. Это невероятно важно упомянуть, потому что одним из ключевых преимуществ байесовского подхода к GLM является большая возможность определения, а во многих случаях и подгонка сложных моделей для ковариации коэффициентов.

— Дерзкое Равновесие

@BrashEquilibrium: вы упоминаете о возможном иерархическом расширении стандартного байесовского моделирования для логит-модели. В нашей книге мы используем, например , д-до на «с, до которой фиксированной ковариационной матрицы получается из ковариата .

β

$\beta$

X

$X$

— Сиань

Достаточно справедливо на данный приор.

— Brash Equilibrium

Тем не менее, есть еще априор по ковариациям !!!!!! Если вы не обсуждаете это, вы не описываете, как логистическая регрессия работает полностью.

— Brash Equilibrium

Ответы:

Логистическая регрессия может быть описана как линейная комбинация

η = β_{0} + β_{1} X_{1} + . . . + β_{k} X_{k}

$\eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k$

это передается через функцию ссылки : $g$

g (E (Y)) = η

$g(E(Y)) = \eta$

где функция ссылки является функцией логита

E (Y | X, β) = p = {logit}^{- 1} (η)

$E(Y|X,\beta) = p = \text{logit}^{-1}( \eta )$

где принимает только значения в а обратные логит-функции преобразуют линейную комбинацию в этот диапазон. На этом классическая логистическая регрессия заканчивается. $Y$ $\{0,1\}$ $\eta$

Однако если вспомнить, что для переменных, которые принимают только значения в , то можно рассматривать как . В этом случае выходные данные функции логита можно рассматривать как условную вероятность «успеха», то есть . Распределение Бернулли - это распределение, которое описывает вероятность наблюдения двоичного результата с некоторым параметром , поэтому мы можем описать как $E(Y) = P(Y = 1)$ $\{0,1\}$ $E(Y | X,\beta)$ $P(Y = 1 | X,\beta)$ $P(Y=1|X,\beta)$ $p$ $Y$

y_{i} \sim Bernoulli (p)

$y_i \sim \text{Bernoulli}(p)$

Таким образом, с помощью логистической регрессии мы ищем некоторые параметры которые вместе с независимыми переменными образуют линейную комбинацию . В классической регрессии (мы предполагаем, что функция связи является тождественной функцией), однако для модели которая принимает значения в нам нужно преобразовать так, чтобы соответствовать в диапазоне . $\beta$ $X$ $\eta$ $E(Y|X,\beta) = \eta$ $Y$ $\{0,1\}$ $\eta$ $[0,1]$

Теперь, чтобы оценить логистическую регрессию байесовским способом, вы выбираете некоторые априоры для параметров как при линейной регрессии (см. Kruschke et al, 2012 ), а затем используете функцию logit для преобразования линейной комбинации , чтобы использовать ее вывод как Параметр распределения Бернулли, который описывает вашу переменнуюИтак, да, вы на самом деле используете уравнение и функцию логит-линка так же, как в частотном случае, а все остальное работает (например, выбирая априоры), как при оценке линейной регрессии по Байесовскому методу. $\beta_i$ $\eta$ $p$ $Y$

Простой подход к выбору приоров - это выбрать нормальные распределения (но вы также можете использовать другие распределения, например, или распределение Лапласа для более надежной модели) для с параметрами и , которые заданы или приняты из иерархических приоры . Теперь, имея определение модели, вы можете использовать программное обеспечение, такое как JAGS, для выполнения моделирования Марковской цепи Монте-Карло, чтобы вы могли оценить модель. Ниже я публикую код JAGS для простой логистической модели (см. Здесь дополнительные примеры). $t$ $\beta_i$ $\mu_i$ $\sigma_i^2$

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Как видите, код напрямую переводится в определение модели. Что делает программное обеспечение, так это то, что оно извлекает некоторые значения из нормальных априорных значений для, aа bзатем использует эти значения для оценки pи, наконец, использует функцию правдоподобия, чтобы оценить, насколько вероятны ваши данные с учетом этих параметров (это когда вы используете теорему Байеса, см. Здесь для более подробное описание).

Базовая модель логистической регрессии может быть расширена для моделирования зависимости между предикторами с использованием иерархической модели (включая гиперприоры ). В этом случае вы можете нарисовать из многомерного нормального распределения, которое позволяет нам включать информацию о ковариантности между независимыми переменными $\beta_i$ $\boldsymbol{\Sigma}$

(\begin{matrix} β_{0} \\ β_{1} \\ ⋮ \\ β_{k} \end{matrix}) \sim M V N ([\begin{matrix} μ_{0} \\ μ_{1} \\ ⋮ \\ μ_{k} \end{matrix}], [\begin{matrix} σ_{0}^{2} & σ_{0, 1} & \dots & σ_{0, k} \\ σ_{1, 0} & σ_{1}^{2} & \dots & σ_{1, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 0} & σ_{k, 1} & \dots & σ_{k}^{2} \end{matrix}])

$\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$

... но это в деталях, поэтому давайте остановимся прямо здесь.

Здесь «байесовская» часть выбирает приоры, использует теорему Байеса и определяет модель в вероятностных терминах. Смотрите здесь для определения «байесовской модели» и здесь для некоторой общей интуиции о байесовском подходе . Вы также можете заметить, что определение моделей довольно просто и гибко при таком подходе.

Kruschke, JK, Aguinis, H. & Joo, H. (2012). Пришло время: байесовские методы анализа данных в организационных науках. Организационные методы исследования, 15 (4), 722-752.

Гельман А., Джакулин А., Питтау Г.М. и Су Ю.С. (2008). Слабоинформативное предварительное распределение по умолчанию для логистических и других регрессионных моделей. Анналы прикладной статистики, 2 (4), 1360–1383.

— Тим
источник

Вам нужны доказательства для дисперсий, а не только коэффициенты.

— Дрянное равновесие

@BCLC no, для логистической регрессии logit используется в качестве функции связи , в то время как является линейной комбинацией , например, для линейной регрессии является тождественной функцией, поэтому , это это просто стандартная спецификация GLM .

g

$g$

η

$\eta$

η = β_{0} + β_{1} X_{1}

$\eta = \beta_0 + \beta_1 X_1$

g

$g$

E (Y) = η

$E(Y) = \eta$

— Тим

@BCLC проверьте ссылки в моем ответе, они представляют введение в байесовскую статистику в целом. Это гораздо более широкая тема, чем та, которая упоминалась в вашем первоначальном вопросе, но вы можете найти хорошее введение в ссылках, которые я предоставил в своем ответе.

— Тим

@ Я сделал там опечатку. Доказательства должны прочитать приоры. По сути, коэффициенты не являются единственными неизвестными параметрами. Полиномиальное распределение также имеет ковариационную матрицу дисперсии, и обычно мы не предполагаем, что она известна.

— Дрянное равновесие

«Байесовская» часть здесь - это выбор приоров, использование теоремы Байеса и определение модели в вероятностных терминах ». Хорошей ссылкой здесь является Gelman et al. СЛАБО ИНФОРМАЦИОННАЯ DEFAULT априорное распределение по логистической И ДРУГИМ регрессионным моделям stat.columbia.edu/~gelman/research/published/priors11.pdf

— Далтон Hance

Что это все за вещи, вероятности?

Вот что делает его байесовским. Генеративная модель для данных одинакова; Разница заключается в том, что байесовский анализ выбирает некоторое предварительное распределение для параметров, представляющих интерес, и вычисляет или аппроксимирует апостериорное распределение, на котором основан весь вывод. Байесовское правило относится к двум: апостериор пропорционален вероятности предшествующего времени.

Интуитивно понятно, что этот предварительный подход позволяет аналитику математически выразить предметную экспертизу или ранее сделанные выводы. Например, текст, на который вы ссылаетесь, отмечает, что предыдущий параметр для является многомерным нормальным. Возможно, предшествующие исследования предполагают определенный диапазон параметров, которые могут быть выражены определенными нормальными параметрами. (С гибкостью приходит ответственность: нужно уметь оправдывать их до скептической аудитории.) В более сложных моделях можно использовать экспертизу предметной области для настройки определенных скрытых параметров. Например, см. Пример печени, на который есть ссылка в этом ответе . $\bf\beta$

Некоторые частые модели могут быть связаны с байесовским аналогом с определенным априором, хотя я не уверен, что соответствует в этом случае.

— Шон Пасха
источник

SeanEaster, «предыдущий» слово используется для предполагаемого распределения? Например, мы предполагаем X или (если вы имеете в виду как в , вы имеете в виду вместо , , ..., ? Я не думаю, что - имеют дистрибутивы ...?) нормальны, но затем мы пытаемся встроить их в другой дистрибутив? Что именно вы подразумеваете под «приближенными»? У меня такое ощущение, что это не то же самое, что «подходит»

β

$\beta$

β

$\beta$

β_{1}, β_{2}, . . ., β_{n}

$\beta_1, \beta_2, ..., \beta_n$

X_{1}

$X_1$

X_{2}

$X_2$

X_{n}

$X_n$

β

$\beta$

— BCLC

@BCLC Чтобы ответить на них, я начну с самого простого процесса байесовского вывода и определю термины на ходу: байесовцы рассматривают все интересующие параметры как случайные переменные и обновляют свои представления об этих параметрах в свете данных. Априорное распределение выражает свое убеждение о параметрах до анализа данных; * апостериорное распределение * - по правилу Байеса, нормализованному произведению априора и вероятности - обобщает неопределенное мнение о параметрах в свете априора и данных. Вычисление апостериума - это место, где происходит примерка.

— Шон Пасха

@BCLC Итак, почему параметры имеют распределение. В других, как правило, простых байесовских моделях, апостериорные распределения могут иметь выражение в замкнутой форме. (В случайной переменной Бернулли с бета-значением, предшествующим , задняя часть является бета-распределением.) Но когда постериумы не могут быть выражены аналитически, мы аппроксимируем их, обычно используя методы MCMC.

β

$\beta$

p

$p$

p

$p$

— Шон Пасха

Хорошо, я думаю, что понимаю вас лучше после прочтения «Эссе к решению проблемы в доктрине шансов» . Спасибо SeanEster

— BCLC

Ага. Во многих случаях это было бы невозможно рассчитать аналитически.

P (B)

$P(B)$

— Шон Пасха