Как бороться с чрезмерной дисперсией в пуассоновской регрессии: квази-правдоподобие, отрицательный биномиальный GLM или случайный эффект на уровне субъекта?


12

Я натолкнулся на три предложения по поводу чрезмерной дисперсии в переменной отклика Пуассона и стартовой модели с фиксированными эффектами:

  1. Используйте квази-модель;
  2. Используйте отрицательный биномиальный GLM;
  3. Используйте смешанную модель со случайным эффектом на уровне объекта.

Но какой на самом деле выбрать и почему? Есть ли какой-то фактический критерий среди них?


Квази-модель рассматривает параметр масштаба / дисперсии как параметр помех и предоставляет SE для IRR, которые расширяются из-за этой неоднородности, тогда как отрицательные биномиальные IRR зависят от параметра масштаба. Смешанная модель моделирует другой эффект: индивидуальный уровень или условный эффект (ы), тогда как отрицательные биномиальные и квазипуассонные модели являются маргинальными моделями. Поэтому они не оценивают одно и то же.
AdamO

Хорошо, так что же на самом деле выбрать, и каковы критерии для принятия этого решения?
Брайан,

Я думаю, что вы бы выбрали Quasipoisson, если (независимо от данных) вы знаете, что модель Пуассона оценивает интересующую вас тенденцию, но дизайн или анализ данных не совсем соответствуют предположению дисперсии. Вы бы использовали отрицательную биномиальную модель, если бы у вас были веские основания полагать, что вероятностная модель на самом деле является отрицательной биномиальной, и вам нужно на самом деле прогнозировать гетероскедастичность, а не делать вывод о тенденции. Наконец, вы используете смешанную модель, если вы хотите знать влияние воздействия на человека, а не на население (то есть никогда не использовать с токсикологией).
AdamO

Я не согласен с @AdamO в отношении "смешанной модели ... эффект воздействия на ... человека, а не на население" . Насколько я понимаю, смешанные модели количественно оценивают эффекты уровня объекта, а затем интегрируют их. По сути, это учитывает псевдорепликацию (несколько мер по одному и тому же предмету) из ваших оценок параметров, исходя из несмещенных оценок параметров для населения (а не отдельного человека). По этой причине я все время использую смешанные модели ... так что надеюсь, я не ошибаюсь!
RTbecard

Ответы:


12

Пуассоновская регрессия - это просто GLM:

Люди часто говорят о параметрическом обосновании применения регрессии Пуассона. На самом деле, пуассоновская регрессия - это просто GLM. Это означает, что регрессия Пуассона оправдана для любого типа данных (подсчетов, оценок, результатов экзаменов, бинарных событий и т. Д.), Когда выполняются два предположения: 1) журнал среднего результата представляет собой линейную комбинацию предикторов и 2) дисперсия от результата равна среднему . Эти два условия соответственно называются средней моделью и отношением средней дисперсии.

Предположение о средней модели можно несколько ослабить, используя сложный набор корректировок для предикторов. Это хорошо, потому что функция link влияет на интерпретацию параметров; тонкость интерпретации делает разницу между ответом на научный вопрос и полным уходом от потребителей вашего статистического анализа. В другом посте SE я обсуждаю полезность лог-преобразований для интерпретации.

Оказывается, однако, что второе предположение (отношение средней дисперсии) имеет сильные последствия для вывода. Когда отношение средней дисперсии не соответствует действительности, оценки параметров не смещены . Однако стандартные ошибки, доверительные интервалы, p-значения и прогнозы неверно откалиброваны. Это означает, что вы не можете контролировать ошибку типа I и у вас может быть неоптимальная мощность.

Что если среднее отклонение можно ослабить, чтобы отклонение было просто пропорционально среднему? Отрицательная биномиальная регрессия и квазипуассоновая регрессия делают это.

Модели квазипуассона

Модели квазипуассона не основаны на вероятности. Они максимизируют «квазиликоновое правдоподобие», которое является вероятностью Пуассона с точностью до пропорциональной постоянной. Эта пропорциональная постоянная оказывается дисперсией. Дисперсия считается неприятностьюпараметр. Хотя подпрограмма максимизации дает оценку параметра помех, эта оценка представляет собой просто артефакт данных, а не какое-либо значение, обобщающее совокупность. Дисперсия служит только для «сжатия» или «расширения» SE параметров регрессии в зависимости от того, является ли дисперсия пропорционально меньшей или большей, чем среднее значение. Поскольку дисперсия рассматривается как параметр помех, квазипуассонные модели обладают множеством устойчивых свойств: данные могут фактически быть гетероскедастичными (не удовлетворяющими предположению о пропорциональной средней дисперсии) и даже демонстрировать небольшие источники зависимости, а средняя модель не должна быть точным, но 95% ДИ для параметров регрессии асимптотически верны.Если ваша цель анализа данных состоит в том, чтобы измерить связь между набором параметров регрессии и результатом, квазипуассоновские модели обычно являются подходящим способом. Ограничение этих моделей состоит в том, что они не могут давать интервалы прогнозирования, остатки Пирсона не могут сказать вам многое о том, насколько точна средняя модель, и информационные критерии, такие как AIC или BIC, не могут эффективно сравнить эти модели с моделями других типов.

Отрицательные биномиальные модели

Наиболее полезно понимать отрицательную биномиальную регрессию как регрессию Пуассона с двумя параметрами. Средняя модель такая же, как в моделях Пуассона и Квазипуассона, где логарифм результата представляет собой линейную комбинацию предикторов. Кроме того, параметр «шкала» моделирует отношение средней дисперсии, где дисперсия просто пропорциональна среднему значению, как и раньше. Однако, в отличие от моделей квазипуассона, этот тип модели является процедурой, основанной на точном правдоподобии, В этом случае дисперсия является фактическим параметром, который имеет некоторую степень обобщения для населения. Это вводит несколько преимуществ по сравнению с квазипуассоном, но, на мой взгляд, предполагает более (непроверяемые) предположения. В отличие от квазипуассоновых моделей: данные должны быть независимыми, средняя модель должна быть правильной, а параметр масштаба должен быть гомоскедастичным во всем диапазоне подгоночных значений для получения правильного вывода. Тем не менее, они могут быть несколько оценены путем проверки остатков Пирсона, и модель дает жизнеспособные интервалы прогнозирования и прогнозирования и поддается сравнению с информационными критериями.

Модели с отрицательной биномиальной вероятностью возникают из смеси Пуассона и Гаммы. То есть существует неизвестная флуктуирующая гамма-переменная, «подающая» в параметр скорости Пуассона. Поскольку подгонка NB GLM основана на вероятности, обычно полезно изложить предварительные мнения о механизме генерирования данных и связать их с вероятностным обоснованием для данной модели. Например, если я тестирую количество гонщиков, выходящих из 24-часовых гонок на выносливость, я мог бы подумать, что все условия окружающей среды - это стрессоры, которые я не измерял, и, таким образом, способствуют риску ДНФ, таким как влажность или холодная температура, влияющая на шину. тяги и, следовательно, риск раскрутки и крушения.

Модели для зависимых данных: GLMMs против GEE

Обобщенные линейные смешанные модели (GLMM) для данных Пуассона не сравниваются с вышеупомянутыми подходами. GLMM отвечают на другой вопрос и используются в разных структурах данных. Здесь источники зависимости между данными измеряются явно. GLMM используют случайные перехваты и случайные наклоны для учета неоднородности на индивидуальном уровне. Это изменяет то, что мы оцениваем. Случайные эффекты изменяют среднее значение и дисперсию, которая моделируется, а не только дисперсию, как обсуждалось выше.

Существует два возможных уровня ассоциации, которые могут быть измерены в зависимых данных: уровень популяции (предельный) и индивидуальный уровень (условный). GLMM утверждают, что измеряют индивидуальные (условные) ассоциации уровня: то есть, учитывая весь набор отдельных участников, вносящих вклад в результат, каково относительное влияние комбинации предикторов. Например, подготовительные курсы к экзаменам могут иметь незначительный эффект для детей, которые посещают примерные школы, тогда как дети в центре города могут получить огромную пользу. Эффект индивидуального уровня в этом случае значительно выше, поскольку дети с преимуществами находятся слишком далеко над кривой с точки зрения положительного воздействия.

Если бы мы наивно применили квазипуассонные или отрицательные биномиальные модели к зависимым данным, NB-модели были бы неправильными, а квазипуассоновские модели были бы неэффективными. GEE, однако, расширяет модель квазипуассона для явного моделирования структур зависимости, таких как GLMM, но GEE измеряет маржинальный (уровень населения) тренд и получает правильные веса, стандартные ошибки и умозаключения.

Пример анализа данных:

Этот пост уже слишком длинный :) В этом уроке есть хорошая иллюстрация первых двух моделей , а также ссылки на дополнительные материалы, если вам интересно. Данные, о которых идет речь, включают в себя привычки гнездования крабов-подков: самки сидят в гнездах, а самцы (спутники) прикрепляются к ней. Исследователи хотели измерить число мужчин, прикрепленных к женщине, в зависимости от характеристик женщины. Я надеюсь, что я подчеркнул, почему смешанные модели несопоставимы: если у вас есть зависимые данные, вы должны использовать правильную модель для вопроса, на который эти зависимые данные пытаются ответить, либо GLM, либо GEE.

Ссылки:

[1] Agresti, категориальный анализ данных, 2-е издание

[2] Diggle, Heagerty, Liang, Zeger, Анализ продольных данных 2-е изд.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.