Свойства логистических регрессий


17

Мы работаем с некоторыми логистическими регрессиями, и мы поняли, что средняя оценочная вероятность всегда равна доле вероятностей в выборке; то есть среднее значение подгонянных значений равно среднему значению по выборке.

Кто-нибудь может объяснить мне причину или дать ссылку, где я могу найти эту демонстрацию?


2
Причиной этого является то, что логистическая регрессия пытается достичь именно этого: моделирование распределения данных, включая предыдущие вероятности («средние»). Это поведение нежелательно?
Bayerj

1
@bayer Нелинейность функции ссылки указывает на то, что это явление глубже вашей характеристики. Здесь действительно есть что продемонстрировать.
whuber

Это свойство иногда называют калибровкой в ​​целом, когда для оценки риска используется логистическая регрессия.
Джульет

Ответы:


26

Поведение, которое вы наблюдаете, является «типичным» случаем в логистической регрессии, но не всегда верно. Это также имеет место в гораздо большей общности (см. Ниже). Это является следствием слияния трех отдельных фактов.

  1. Выбор моделирования лог-шансов в качестве линейной функции предикторов,
  2. Использование максимального правдоподобия для получения оценок коэффициентов в модели логистической регрессии, и
  3. Включение члена перехвата в модель.

Если что-либо из вышеперечисленного отсутствует, то средние оценочные вероятности, как правило, не будут соответствовать доле из них в выборке.

Однако (почти) все статистическое программное обеспечение использует оценку максимального правдоподобия для таких моделей, поэтому на практике пункты 1 и 2 присутствуют практически всегда, а пункт 3 обычно присутствует, за исключением особых случаев.

Некоторые детали

В типичных рамках логистической регрессии мы наблюдаем результаты независимых биномиальных испытаний с вероятностью . Позвольте y я быть наблюдаемыми ответами. Тогда полная вероятность того, L = п Π я = 1 р у я я ( 1 - р я ) 1 - у я = п Π я = 1 ехр ( у я входе ( р я / ( 1 - р IпяYя И таким образом, лог-правдоподобия = п Σ я = 1 у я войти ( р я / ( 1 - р я ) ) + п Σ я = 1 журнал ( 1 - р я )

Lзнак равноΠязнак равно1NпяYя(1-пя)1-Yязнак равноΠязнак равно1Nехр(Yяжурнал(пя/(1-пя))+журнал(1-пя)),
знак равноΣязнак равно1NYяжурнал(пя/(1-пя))+Σязнак равно1Nжурнал(1-пя),

Теперь у нас есть вектор предикторов для каждого наблюдения, а из факта 1 выше модель логистической регрессии утверждает, что log p iИкся

журналпя1-пязнак равноβTИкся,
βпязнак равно1/(1+е-βTИкся)

/βзнак равно0

βзнак равноΣяYяИкся-ΣяИкся1+ехр(-βTИкся)знак равноΣяYяИкся-ΣяпяИкся,
ΣяYяИксязнак равноΣяп^яИкся,
п^язнак равно(1+ехр(-β^TИкся))-1 в этом случае.

ИксяJяΣяYяИксяJзнак равноΣяYязнак равноΣяп^я и так эмпирическое соотношение положительных ответов соответствует среднему подогнанные вероятности.

Симуляция

р

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Общий случай : Как упоминалось выше, свойство того, что средний отклик равен среднему прогнозируемому среднему, имеет гораздо большую общность для класса обобщенных линейных моделей, подходящих по максимальному правдоподобию, с использованием функции канонического связывания и включения перехвата в модель.

Ссылки

Некоторые хорошие ссылки для связанной теории следующие.

  1. A. Agresti (2002), Категориальный анализ данных , 2-е изд., Wiley.
  2. P. McCullagh и JA Nelder (1989), Обобщенные линейные модели , 2-е изд., Chapman & Hall. (Текст от оригинальных авторов общих методов.)

4
+1 Эта демонстрация (специфичная для модели логистической регрессии, без попытки обобщения на все GLM) также дана в Maddala (1983) Ограниченные зависимые и качественные переменные в эконометрике , стр. 25-26.
StasK

@StasK: Спасибо за дополнительную ссылку, с которой я не знаком. Приветствия.
кардинал

@cardinal: Я не помню, чтобы Агрести обсуждал это. Это обсуждается в МакКаллахе и Нелдере?
Джульет
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.