Распределение «по умолчанию», наиболее часто используемое и описываемое для подсчета данных - это распределение Пуассона . Чаще всего это иллюстрируется на примере первого практического использования:
Практическое применение этого распределения было сделано Ладислаусом Борткевичем в 1898 году, когда ему было поручено исследовать количество солдат в прусской армии, случайно убитых конными ударами; этот эксперимент ввел распределение Пуассона в области инженерии надежности.
Распределение Пуассона параметризуется скоростью за фиксированный интервал времени ( - это также среднее значение и дисперсия). В случае регрессии мы можем использовать распределение Пуассона в обобщенной линейной модели с логарифмической функцией связиλλ
Е( Y|Икс, β) = λ = exp( β0+ β1Икс1+ ⋯ + βКИксК)
это называется регрессией Пуассона , поскольку можно предположить, что - это скорость распределения Пуассона. Однако обратите внимание, что для лог-линейной регрессии вам не нужно делать такое предположение, а просто используйте GLM с лог-связью с данными без учета. При интерпретации параметров необходимо помнить, что из-за использования преобразования журнала изменения в независимой переменной приводят к мультипликативным изменениям в предсказанных значениях.λ
Проблема с использованием распределения Пуассона для реальных данных состоит в том, что предполагается, что среднее значение равно дисперсии. Нарушение этого предположения называется чрезмерной дисперсией . В таких случаях вы всегда можете использовать квази-пуассоновскую модель, непуассоновскую лог-линейную модель (для больших количеств Пуассона можно аппроксимировать нормальным распределением), отрицательную биномиальную регрессию (тесно связанную с Пуассоном; см. Berk and MacDonald, 2008) или другие модели, описанные Стефаном Колассой .
Для некоторого дружественного введения в регрессию Пуассона вы можете также проверить статьи Lavery (2010) или Coxe, West and Aiken (2009).
Lavery R. (2010). Анимированное руководство: введение в пуассоновскую регрессию. Бумага NESUG, sa04.
Кокс, С., Уэст, С.Г. и Айкен, Л.С. (2009). Анализ данных подсчета: осторожное введение в регрессию Пуассона и ее альтернативы. Журнал оценки личности, 91 (2), 121-136.
Berk, R. & MacDonald, JM (2008). Сверхдисперсия и пуассоновская регрессия. Журнал количественной криминологии, 24 (3), 269-284.