Поведение, которое вы наблюдаете, является «типичным» случаем в логистической регрессии, но не всегда верно. Это также имеет место в гораздо большей общности (см. Ниже). Это является следствием слияния трех отдельных фактов.
- Выбор моделирования лог-шансов в качестве линейной функции предикторов,
- Использование максимального правдоподобия для получения оценок коэффициентов в модели логистической регрессии, и
- Включение члена перехвата в модель.
Если что-либо из вышеперечисленного отсутствует, то средние оценочные вероятности, как правило, не будут соответствовать доле из них в выборке.
Однако (почти) все статистическое программное обеспечение использует оценку максимального правдоподобия для таких моделей, поэтому на практике пункты 1 и 2 присутствуют практически всегда, а пункт 3 обычно присутствует, за исключением особых случаев.
Некоторые детали
В типичных рамках логистической регрессии мы наблюдаем результаты независимых биномиальных испытаний с вероятностью . Позвольте y я быть наблюдаемыми ответами. Тогда полная вероятность того,
L = п Π я = 1 р у я я ( 1 - р я ) 1 - у я = п Π я = 1 ехр ( у я входе ( р я / ( 1 - р IпяYя
И таким образом, лог-правдоподобия
ℓ = п Σ я = 1 у я войти ( р я / ( 1 - р я ) ) + п Σ я = 1 журнал ( 1 - р я )
L = ∏я = 1NпYяя( 1 - ря)1 - йя= ∏я = 1Nехр( уяжурнал( ря/ (1- ря) ) + лог( 1 - ря) ),
ℓ = ∑я = 1NYяжурнал( ря/ (1- ря) ) + ∑я = 1Nжурнал( 1 - ря),
Теперь у нас есть вектор предикторов для каждого наблюдения, а из факта 1 выше модель логистической регрессии утверждает, что
log p iИкся
журналпя1 - ря= βTИкся,
βпя= 1 / ( 1 + е- βTИкся)
∂ℓ / ∂β= 0
∂ℓ∂β= ∑яYяИкся- ∑яИкся1 + опыт( - βTИкся)= ∑яYяИкся- ∑япяИкся,
ΣяYяИкся= ∑яп^яИкся,
п^я= ( 1 + опыт( - β^TИкся) )- 1 в этом случае.
ИксяJяΣяYяИкся ж= ∑яYя= ∑яп^я и так эмпирическое соотношение положительных ответов соответствует среднему подогнанные вероятности.
Симуляция
р
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Общий случай : Как упоминалось выше, свойство того, что средний отклик равен среднему прогнозируемому среднему, имеет гораздо большую общность для класса обобщенных линейных моделей, подходящих по максимальному правдоподобию, с использованием функции канонического связывания и включения перехвата в модель.
Ссылки
Некоторые хорошие ссылки для связанной теории следующие.
- A. Agresti (2002), Категориальный анализ данных , 2-е изд., Wiley.
- P. McCullagh и JA Nelder (1989), Обобщенные линейные модели , 2-е изд., Chapman & Hall. (Текст от оригинальных авторов общих методов.)