Предположения обобщенных линейных моделей

На странице 232 «Компаньон R в прикладной регрессии» записка Фокса и Вейсберга

Только семейство Гауссов имеет постоянную дисперсию, а во всех других GLM условная дисперсия y в зависит от $\bf{x}$ $\mu(x)$

Ранее они отмечали, что условная дисперсия Пуассона равна а дисперсия бинома - . $\mu$ $\frac{\mu(1-\mu)}{N}$

Для гауссиана это знакомое и часто проверяемое предположение (гомоскедастичность). Точно так же я часто рассматриваю условную дисперсию Пуассона, обсуждаемую как допущение регрессии Пуассона, вместе с мерами защиты для случаев, когда она нарушается (например, отрицательный бином, раздувание нуля и т. Д.). И все же я никогда не рассматриваю условную дисперсию для рассматриваемого бинома как допущение в логистической регрессии. Маленький Гугл не нашел упоминаний об этом.

Что мне здесь не хватает?

РЕДАКТИРОВАТЬ после комментария @whuber:

Как и предполагалось, я смотрю через Hosmer & Lemeshow. Это интересно, и я думаю, что это показывает, почему я (и, возможно, другие) смущены. Например, слово «предположение» отсутствует в указателе к книге. Кроме того, у нас есть это (стр. 175)

В логистической регрессии мы должны полагаться, прежде всего, на визуальную оценку, поскольку распределение диагностики в соответствии с гипотезой, что модель подходит, известно только в определенных ограниченных условиях.

Они показывают довольно много графиков, но концентрируются на точечных диаграммах различных остатков в сравнении с оценочной вероятностью. Эти графики (даже для хорошей модели не имеют паттерна «блоби», характерного для аналогичных графиков при регрессии МНК и поэтому сложнее судить. Кроме того, они не показывают ничего похожего на квантильные графики.

В R plot.lm предлагает хороший набор графиков по умолчанию для оценки моделей; Я не знаю эквивалента для логистической регрессии, хотя это может быть в некотором пакете. Это может быть связано с тем, что для каждого типа модели потребуются разные графики. SAS предлагает несколько участков в PROC LOGISTIC.

Это, конечно, кажется, область потенциального беспорядка!

logistic generalized-linear-model

— Питер Флом
источник

Если у вас есть копия Hosmer & Lemeshow « Прикладная логистическая регрессия», то ознакомьтесь с главой «Оценка соответствия модели»: условная дисперсия бинома обнаруживается везде и явно учитывается почти во всех тестах GoF.

— whuber

Я думаю, что биномиальное предположение навязывается реальным экспериментом: ответы независимы 0/1, поэтому биномиальное распределение является единственным, которое моделирует реальный эксперимент. Напротив, предположение о распределении Пуассона для отсчетов не является реалистичным.

— Стефан Лоран

Спасибо @whuber. У меня есть эта книга, и я ее проверю

— Питер Флом

... но функция ссылки не является естественной, и она определяет условную дисперсию ... поэтому мой комментарий выше был не очень разумным

— Стефан Лоран

Ответы:

Эти графики (даже для хорошей модели не имеют паттерна «блоби», характерного для аналогичных графиков при регрессии МНК и поэтому сложнее судить. Кроме того, они не показывают ничего похожего на квантильные графики.

Пакет DHARMa R решает эту проблему, моделируя из подобранной модели преобразование остатков любого GL (M) M в стандартизированное пространство. Как только это будет сделано, могут быть применены все обычные методы визуальной и формальной оценки остаточных проблем (например, графики qq, избыточная дисперсия, гетероскедастичность, автокорреляция). Посмотрите виньетку пакета для проработанных примеров.

Что касается комментария @Otto_K: если однородная избыточная дисперсия является единственной проблемой, вероятно, проще использовать случайный эффект на уровне наблюдений, который может быть реализован с помощью стандартного биномиального GLMM. Тем не менее, я думаю, что @PeterFlom также интересовался гетероскедастичностью, то есть изменением параметра дисперсии с некоторыми предсказателями или модельными предсказаниями. Это не будет обнаружено / исправлено стандартными проверками / исправлениями чрезмерной дисперсии, но вы можете увидеть это на остаточных графиках DHARMa. Чтобы исправить это, моделирование дисперсии как функции чего-то другого в JAGS или STAN, вероятно, является единственным способом на данный момент.

— Флориан Хартиг
источник

Тема, которую вы объясняете, часто называется чрезмерной дисперсией . В своей работе я видел возможное решение такой темы:

Использование байесовского подхода и оценка бета-биномиального распределения. Это имеет большое преимущество перед другими распределениями (вызванными другими априорами) иметь решение в закрытой форме.

Ссылки:

Бета-биномиальное распределение
Заметки Питера Хоффа по Байесу ( pdf )

— Otto_K
источник