Какую модель регрессии лучше всего использовать с данными подсчета?


10

Я пытаюсь немного заняться статистикой, но я застрял в чем-то. Мои данные следующие:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Теперь я хочу построить регрессионную модель, чтобы на основе данных можно было прогнозировать количество генов за любой данный год. До сих пор я делал это с помощью линейной регрессии, но я немного читал, и это, похоже, не лучший выбор для такого рода данных. Я читал, что регрессия Пуассона может быть полезна, но я не уверен, что использовать. Итак, мой вопрос:

Существует ли общая модель регрессии для такого рода данных? Если нет, что мне нужно сделать, чтобы выяснить, какой метод является наиболее подходящим для использования (с точки зрения того, что я должен узнать о данных)?


Мой ответ здесь: stats.stackexchange.com/questions/142338/… очень актуален.
kjetil b halvorsen

2
Это данные временных рядов?
Майкл М

Ответы:


22

Нет, не существует общей модели регрессии данных.

(Так же, как нет общей модели регрессии для непрерывных данных. Обычно предполагается линейная модель с нормально распределенным гомоскедастическим шумом, которая подбирается с использованием обыкновенных наименьших квадратов. Однако гамма-регрессия или экспоненциальная регрессия часто используются для решения различных предположений о распределении ошибок. или модели условной гетероскедастичности, такие как ARCH или GARCH в контексте временных рядов, для борьбы с гетероскедастическим шумом.)

Обычные модели включают в себя , как вы пишете, или отрицательную биномиальную регрессию. Эти модели достаточно широко распространены, чтобы найти все виды программного обеспечения, учебных пособий или учебников. Мне особенно нравится отрицательная биноминальная регрессия Хильбе . Этот предыдущий вопрос обсуждает, как выбирать между различными моделями данных подсчета.

Если у вас есть «много» нулей в ваших данных, и особенно если вы подозреваете, что нули могут быть вызваны процессом генерирования данных, отличным от ненулевых (или что некоторые нули происходят из одного DGP, а другие нули и ненулевые приходят из другой DGP), модели с могут быть полезны. Наиболее распространенным является регрессия Пуассона с нулевой раздувкой (ZIP).

Вы также можете просмотреть наши предыдущие вопросы, помеченные как «регрессия» и «подсчет данных» .


РЕДАКТИРОВАТЬ: @MichaelM поднимает хорошую мысль. Это делает вид , как временные ряды данных подсчета. (И недостающие данные за 1992 и 1994 годы подсказывают мне, что в каждом из этих лет должен быть ноль. Если так, включите его. Ноль - это действительное число, и оно несет информацию.) В свете этого я Также предлагаю просмотреть наши предыдущие вопросы, помеченные как «временные ряды», так и «количество данных» .


4
Хорошо, но Обыкновенные наименьшие квадраты - это процедура оценки, а не модель. Вы знаете это, но это общая путаница, поэтому мы не должны писать, потакая этому.
Ник Кокс

@NickCox: хорошая мысль. Я отредактировал свой пост.
Стефан Коласса

11

Распределение «по умолчанию», наиболее часто используемое и описываемое для подсчета данных - это распределение Пуассона . Чаще всего это иллюстрируется на примере первого практического использования:

Практическое применение этого распределения было сделано Ладислаусом Борткевичем в 1898 году, когда ему было поручено исследовать количество солдат в прусской армии, случайно убитых конными ударами; этот эксперимент ввел распределение Пуассона в области инженерии надежности.

Распределение Пуассона параметризуется скоростью за фиксированный интервал времени ( - это также среднее значение и дисперсия). В случае регрессии мы можем использовать распределение Пуассона в обобщенной линейной модели с логарифмической функцией связиλλ

Е(Y|Икс,β)знак равноλзнак равноехр(β0+β1Икс1++βКИксК)

это называется регрессией Пуассона , поскольку можно предположить, что - это скорость распределения Пуассона. Однако обратите внимание, что для лог-линейной регрессии вам не нужно делать такое предположение, а просто используйте GLM с лог-связью с данными без учета. При интерпретации параметров необходимо помнить, что из-за использования преобразования журнала изменения в независимой переменной приводят к мультипликативным изменениям в предсказанных значениях.λ

Проблема с использованием распределения Пуассона для реальных данных состоит в том, что предполагается, что среднее значение равно дисперсии. Нарушение этого предположения называется чрезмерной дисперсией . В таких случаях вы всегда можете использовать квази-пуассоновскую модель, непуассоновскую лог-линейную модель (для больших количеств Пуассона можно аппроксимировать нормальным распределением), отрицательную биномиальную регрессию (тесно связанную с Пуассоном; см. Berk and MacDonald, 2008) или другие модели, описанные Стефаном Колассой .

Для некоторого дружественного введения в регрессию Пуассона вы можете также проверить статьи Lavery (2010) или Coxe, West and Aiken (2009).


Lavery R. (2010). Анимированное руководство: введение в пуассоновскую регрессию. Бумага NESUG, sa04.

Кокс, С., Уэст, С.Г. и Айкен, Л.С. (2009). Анализ данных подсчета: осторожное введение в регрессию Пуассона и ее альтернативы. Журнал оценки личности, 91 (2), 121-136.

Berk, R. & MacDonald, JM (2008). Сверхдисперсия и пуассоновская регрессия. Журнал количественной криминологии, 24 (3), 269-284.


2
Вы сопоставляете подгонку распределения Пуассона с помощью регрессии Пуассона. Для регрессии Пуассона не является абсолютным требованием, чтобы ответ имел распределение Пуассона. Регрессия Пуассона хорошо работает для широкого спектра положительных ответов, включая измеряемые переменные. Это хорошая идея, чтобы быть осторожным со стандартными ошибками для логического вывода, но это можно исправить. См. Например, blog.stata.com/2011/08/22/…
Ник Кокс

@NickCox верно, но вопрос был строго о данных подсчета, поэтому, вероятно, нет необходимости вдаваться в подробности о других случаях использования регрессии Пуассона.
Тим

3
Не нужно вдаваться в подробности, договорились; но каждая причина подталкивать пуассоновскую регрессию немного. Его полезность удивительно мало известна; это заслуживает быть, по крайней мере, во многих промежуточных текстах. Кроме того, и что более важно здесь, я совсем не согласен с тем, что если дисперсия не равна значению, вы должны использовать другие модели; это смешивает две совершенно разные проблемы.
Ник Кокс

Более того, тот факт, что регрессию Пуассона можно использовать с измеряемыми переменными, является уместным, так как в таких случаях среднее значение равно дисперсии даже не имеет смысла, поскольку они имеют разные измерения. Таким образом, такие случаи подчеркивают, что требование не является такой вещью.
Ник Кокс

3
ехр(Иксб)

0

Пуассоновский или отрицательный биномиал - две широко используемые модели для подсчета данных. Я бы выбрал отрицательный бином, поскольку он имеет лучшие предположения для дисперсии.


3
Что вы подразумеваете под «лучше»?
Тим

2
В нынешнем виде это скорее комментарий, чем ответ. Как вы думаете, вы могли бы расширить это? Вы, конечно, должны подумать о комментарии Тима - слово «лучше» очень расплывчато
Silverfish

Отрицательные биномиальные (NB) модели имеют дело с данными о избыточном распределении (OD), предполагая, что это связано с кластеризацией. Затем он использует модель случайного перехвата с распределением Пуассона «внутри» и гамма-распределением «между» структурой. Что лучше, зависит от вашего предположения о OD. Если вы предполагаете, что степень OD зависит от размера кластера, NB может помочь. Если вы предполагаете, что OD пропорциональны размеру кластера, квазипуассон имеет такое предположение. Оценки NB будут смещены, если OD - просто гауссов шум. Пуассон будет менее предвзятым, но стандартные ошибки могут быть слишком малы с OD.
Майнард
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.