Пуассон или квази пуассон в регрессии с данными подсчета и избыточной дисперсией?

У меня есть данные подсчета (анализ спроса / предложения с подсчетом количества клиентов, в зависимости от - возможно - многих факторов). Я пробовал линейную регрессию с нормальными ошибками, но мой QQ-график не очень хорош. Я попробовал лог-преобразование ответа: еще раз плохой QQ-сюжет.

Итак, сейчас я пытаюсь регрессии с пуассоновскими ошибками. С моделью со всеми значимыми переменными я получаю:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Остаточное отклонение больше, чем остаточные степени свободы: у меня избыточная дисперсия.

Как я могу узнать, нужно ли мне использовать квазипуассон? Какова цель квазипуассона в этом случае? Я прочитал этот совет в «Книге R» Кроули, но не вижу смысла и значительного улучшения в моем случае.

— Антонин
источник

Ответы:

При попытке определить, какого рода уравнение glm вы хотите оценить, вы должны подумать о вероятных отношениях между ожидаемым значением вашей целевой переменной, заданным для переменных правой части (rhs), и дисперсией целевой переменной, заданной для переменных rhs. Графики невязок и подгонянные значения из вашей нормальной модели могут помочь в этом. При регрессии Пуассона предполагаемое соотношение состоит в том, что дисперсия равна ожидаемой величине; довольно ограничительный, я думаю, вы согласитесь. При «стандартной» линейной регрессии предполагается, что дисперсия постоянна независимо от ожидаемого значения. Для квазипуассоновской регрессии предполагается, что дисперсия является линейной функцией среднего значения; для отрицательной биномиальной регрессии - квадратичная функция.

Тем не менее, вы не ограничены этими отношениями. Спецификация «семейства» (кроме «квази») определяет отношение средней дисперсии. У меня нет The R Book, но я предполагаю, что в ней есть таблица, которая показывает семейные функции и соответствующие отношения средней дисперсии. Для семейства «квази» вы можете указать любое из нескольких отношений средней дисперсии и даже написать свое; см документации R . Может случиться так, что вы можете найти гораздо лучшее соответствие, указав значение не по умолчанию для функции средней дисперсии в «квази» модели.

Вы также должны обратить внимание на диапазон целевой переменной; в вашем случае это неотрицательные данные подсчета. Если у вас есть значительная доля низких значений - 0, 1, 2 - непрерывные распределения, вероятно, не подойдут хорошо, но если вы этого не сделаете, использование дискретного распределения не имеет особой ценности. Редко когда вы рассматриваете распределения Пуассона и Нормала как конкурентов.

— jbowman
источник

Да, ты прав. Здесь у меня есть данные подсчета, но с большими значениями. Я должен использовать непрерывное распределение.

— Антонин

Вы правы, эти данные могут быть слишком разбросаны. Квазипуассон - это лекарство: он также оценивает масштабный параметр (который фиксирован для пуассоновых моделей, поскольку дисперсия также является средним) и обеспечит лучшее соответствие. Тем не менее, это больше не максимальная вероятность того, что вы делаете, и некоторые модельные тесты и индексы не могут быть использованы. Хорошее обсуждение можно найти в «Venables» и «Ripley», «Современная прикладная статистика с S» (раздел 7.5) .

Альтернативой является использование отрицательной биномиальной модели, например, glm.nb()функции в пакете MASS.

— Момо
источник

Но я "вынужден" использовать квазипуассон в этом случае? Я спрашиваю, так как моя не-квазипуассонная модель лучше (просто базовый пуассон) в том смысле, что больше переменных значимы.

— Антонин

Разве это не имеет смысла, хотя? Если бы я использовал регрессионную модель, в которой я предполагал, что сигма равна .00001, а не использовал оценку из данных (скажем, 2.3), то, конечно, все будет более значимым.

— Дейсон

Антонин: Я бы сказал, что если переменные имеют большое значение, это не делает вещи «лучше». Как указал Дейсон, они могут быть ложными срабатываниями, если вы недооцениваете отклонение ошибки. Я бы определенно использовал квази-метод или отрицательный бином в этом случае, но если я не рассмотрю вашу статью, вы не будете вынуждены ничего делать;)

— Момо

Большое спасибо за ваши ответы! Знаете ли вы какой-нибудь способ сравнения квази-пуассоновских и отрицательных биномиальных моделей? В большинстве книг они представляют модели, но не объясняют, как выбирать между ними.

— Антонин

По выводу кажется, что вы подгоняете 53-17 = 16 параметров к 53 + 1 = 54 точкам данных; это правильно? Если да, то любой метод, основанный на асимптотических приближениях, включая использование glm()и glm.nb()может дать плохо калиброванный вывод; было бы разумно ожидать, что точность будет завышена. Было бы полезно узнать больше о том, почему вы хотите сделать эту регрессию; вместо этого можно использовать методы, которые работают лучше в небольших ситуациях.

— гость