Простая модель линейной регрессии
Yя= α + βИкся+ ε
может быть написано с точки зрения вероятностной модели позади него
μi=α+βxiyi∼N(μi,σ)
то есть зависимая переменная следует нормальному распределению, параметризованному средним μ i , то есть линейной функции X, параметризованной α , β и стандартным отклонением σ . Если вы оцениваете такую модель, используя обычные наименьшие квадраты , вам не нужно беспокоиться о вероятностной формулировке, потому что вы ищете оптимальные значения параметров α , β , сводя к минимуму возведенные в квадрат ошибки согласованных значений до прогнозируемых значений. С другой стороны, вы могли бы оценить такую модель, используя оценку максимального правдоподобияYμiXα,βσα,βгде вы будете искать оптимальные значения параметров путем максимизации функции правдоподобия
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
Nyiα+βxiσ
В байесовском подходе вместо максимизации только функции правдоподобия мы принимаем предварительные распределения для параметров и используем теорему Байеса.
posterior∝likelihood×prior
α,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
α,βtσ
(источник: http://www.indiana.edu/~kruschke/BMLR/ )
В то время как с максимальной вероятностью вы искали одно оптимальное значение для каждого из параметров, в байесовском подходе, применяя теорему Байеса, вы получаете апостериорное распределение параметров. Окончательная оценка будет зависеть от информации, полученной из ваших данных и ваших априоров , но чем больше информации содержится в ваших данных, тем менее влиятельными являются априоры .
f(θ)∝1
Для оценки модели в байесовском подходе в некоторых случаях вы можете использовать сопряженные априорные значения , поэтому апостериорное распределение непосредственно доступно (см. Пример здесь ). Однако в подавляющем большинстве случаев апостериорное распределение не будет доступно напрямую, и вам придется использовать методы Марковской цепи Монте-Карло для оценки модели (см. Этот пример использования алгоритма Метрополиса-Гастингса для оценки параметров линейной регрессии). Наконец, если вас интересуют только точечные оценки параметров, вы можете использовать максимально апостериорную оценку , т.е.
argmaxα,β,σf(α,β,σ∣Y,X)
Для более подробного описания логистической регрессии вы можете проверить байесовскую модель логита - интуитивное объяснение? нить.
Для получения дополнительной информации вы можете проверить следующие книги:
Kruschke, J. (2014). Выполнение байесовского анализа данных: учебное пособие с использованием R, JAGS и Stan. Академическая пресса.
Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2004).
Байесовский анализ данных. Чепмен и Холл / CRC.