Понимание логистической регрессии и вероятности


12

Как работает оценка параметров / тренинг логистической регрессии? Я постараюсь поставить то, что у меня так далеко.

  1. Выходными данными являются выходные данные логистической функции в виде вероятности в зависимости от значения x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Для одного измерения так называемые шансы определяются следующим образом:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Теперь добавим logфункцию, чтобы получить W_0 и W_1 в линейной форме:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Теперь к проблемной части Использование вероятности (Большой X есть y)
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    Кто-нибудь может сказать, почему мы рассматриваем вероятность y = 1 дважды? так как:
    P(y=0|x)=1P(y=1|x)

и как получить значения ω из него?

Ответы:


10

В общем, предположим, что вы решили взять модель в форме

P(y=1|X=x)=h(x;Θ)

для некоторого параметра . Тогда вы просто записываете вероятность этого, т.е.Θ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

который так же, как

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Теперь вы решили «принять» (модель)

P(y=1|X=x)=σ(Θ0+Θ1x)

где

σ(z)=1/(1+ez)

поэтому вы просто вычисляете формулу для вероятности и выполняете некоторый алгоритм оптимизации, чтобы найти , например, метод ньютонов или любой другой метод на основе градиента.argmaxΘL(Θ)

Обратите внимание, что иногда люди говорят, что когда они выполняют логистическую регрессию, они не максимизируют вероятность (как мы / вы сделали выше), а скорее минимизируют функцию потерь

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

log(L(Θ))=l(Θ)

P


L(θ)yi=1ω1ω0

Σf(x)=x2x=3fff=2xx=0это указывает направо, и если мы оставлены от этого, это указывает налево. Математически производная указывает в направлении «самого сильного подъема»
Фабиан Вернер

x0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL

y=1ωωy=1y=1 y=0
Фабиан Вернер

8

,yi=1,yi=0

ωω


yi=0ω

i=1,y=1Ni=1Ny=1

Существует множество возможных алгоритмов максимизации функции правдоподобия. Наиболее распространенный метод , метод Ньютона-Рафсона , действительно включает вычисление первой и второй производных.
Мартен Буис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.