Когда использовать данные Пуассона против геометрических и отрицательных биномиальных GLM для данных подсчета?

Я пытаюсь сделать макет для себя, когда уместно использовать тип регрессии (геометрический, пуассоновский, отрицательный бином) с данными счета в рамках GLM (только 3 из 8 распределений GLM используются для данных счета, хотя большая часть того, что Я читал центры вокруг отрицательных биномиальных и пуассоновских распределений).

Пока у меня есть следующая логика: это считать данные? Если да, то являются ли среднее значение и дисперсия неравными? Если да, отрицательная биноминальная регрессия. Если нет, Пуассона регрессия. Есть ли нулевая инфляция? Если да, то ноль надувает Пуассона или ноль надувает отрицательный бином.

Вопрос 1 Кажется, что нет четкого указания, когда использовать. Есть ли что-то, чтобы сообщить это решение? Из того, что я понимаю, когда вы переключаетесь на ZIP, средняя дисперсия, равная предположению, становится более расслабленной, поэтому она снова очень похожа на NB.

Вопрос 2 Где геометрическое семейство вписывается в этот или какие вопросы мне следует задавать для данных при принятии решения о том, использовать ли геометрическое семейство в моей регрессии?

Вопрос 3 Я вижу людей, которые постоянно меняют отрицательные биномиальные и пуассоновские распределения, но не геометрические, поэтому я предполагаю, что когда-то его использовать, есть нечто совершенно иное. Если так, то, что это?

PS Я сделал (возможно, слишком упрощенно, из комментариев) диаграмму ( редактируемую ) моего текущего понимания, если бы люди хотели прокомментировать / настроить ее для обсуждения. Данные подсчета: дерево решений GLM

— timothy.s.lau
источник

Я знаком только с программированием на R, но надеюсь, что это поможет ... stats.stackexchange.com/questions/60643/…

— RYO ENG Лиан Ху

@RYOENG, я видел это и изложил разницу, описанную в моем вопросе, с помощью логического дерева. Я особенно заинтересован в менее обсуждаемой области, а именно в геометрической области.

— timothy.s.lau

(ОБНОВЛЕНИЕ) @Nick Cox's ответ здесь: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms, кажется, капитулирует над чувством, которое я видел до сих пор, ища "Трудно точно определить, когда использовать его вне пустого ответа всякий раз, когда это работает лучше всего »

— timothy.s.lau

@Glen_b хороший улов, я обновил логику.

— timothy.s.lau

Вы, вероятно, в безопасности, удалив абзац о том, что вас обманывают моды.

— Glen_b

Как распределение Пуассона, так и геометрическое распределение являются частными случаями отрицательного биномиального (NB) распределения. Одним из распространенных обозначений является то, что дисперсия NB равна где - это ожидание, а отвечает за количество (чрезмерной) дисперсии. Иногда также используется. Модель Пуассона имеет , т. Е. Равноудаленную дисперсию, а геометрическая имеет . $\mu + 1/\theta \cdot \mu^2$ $\mu$ $\theta$ $\alpha = 1/\theta$ $\theta = \infty$ $\theta = 1$

Таким образом, в случае сомнений между этими тремя моделями, я бы порекомендовал оценить NB: в худшем случае вы теряете немного эффективности, оценивая один параметр слишком много. Но, конечно, существуют также формальные тесты для оценки того, достаточно ли определенного значения для (например, 1 или ). Или вы можете использовать информационные критерии и т. Д. $\theta$ $\infty$

Конечно, есть также множество других одно- или многопараметрических распределений данных подсчета (включая упомянутый вами состав Пуассона), которые иногда могут или не могут привести к значительно лучшему подгонке.

Что касается избыточных нулей: две стандартные стратегии состоят в том, чтобы либо использовать распределение данных подсчета с нулевым завышением, либо модель препятствий, состоящую из двоичной модели для нуля или больше плюс модель данных с усеченным нулем. Как вы упоминаете, избыточные нули и сверхдисперсия могут быть смешаны, но часто значительная избыточная дисперсия сохраняется даже после корректировки модели на избыточные нули. Опять же, в случае сомнений, я бы порекомендовал использовать модель нулевой инфляции или барьера на основе NB по той же логике, что и выше.

Отказ от ответственности: это очень краткий и простой обзор. При применении моделей на практике я бы рекомендовал обратиться к учебнику по данной теме. Лично мне нравятся книги по подсчетам Винкельмана и Камерона и Триведи. Но есть и другие хорошие. Для обсуждения на основе R вам также может понравиться наша статья в JSS ( http://www.jstatsoft.org/v27/i08/ ).

— Ахим Цейлейс
источник

μ + μ^{2} > μ

$\mu + \mu^2 > \mu$

μ

$\mu$

Как вы могли бы сказать из моих предыдущих комментариев: я не фанат таких упрощенных блок-схем. Чтобы выбрать хорошую модель, нужно понять связи между моделями и их отношение к практическому применению. Может ли вас заинтересовать геометрия или нет, зависит от того, в каком конкретном случае вы находитесь. Точно так же для нулевой инфляции против барьера (который вы пропустили на вашем графике). Наконец, порядок вопросов не обязательно одинаков для всех приложений и т. Д.

— Ахим Цейлейс,

Я понял, что мой набросок кажется немного упрощенным. Но для студентов, изучающих естественные науки, нередко начинать с довольно упрощенных схем: если вы посещали уроки физики, вы знакомы с тем, как часто они меняют и нарушают «правила», которые вы выучили ранее, что является основой более поздних экспертное и нюансированное понимание. Так что ради обучения я аспирант, я просто пытался получить более «правильное» понимание основ, которые я могу выстроить на более поздних этапах, например, препятствия и т. Д. Спасибо за ссылки Кстати, я буду изучать учебники Вы упомянули, а также вашу газету.

— timothy.s.lau

\log (μ_{i}) = x_{i}^{⊤} β

$\log(\mu_i) = x_i^\top \beta$