Регрессия Пуассона против регрессии по методу наименьших квадратов?


21

Пуассоновская регрессия - это GLM с функцией log-link.

Альтернативный способ моделирования данных с ненормально распределенным счетчиком - это предварительная обработка путем взятия журнала (или, скорее, журнала (1 + счет) для обработки 0). Если вы выполняете регрессию методом наименьших квадратов в ответах на количество журналов, связано ли это с регрессией Пуассона? Может ли он справиться с подобными явлениями?


6
Как вы планируете брать логарифмы любых подсчетов, которые равны нулю?
whuber

3
Определенно не эквивалентно. Простой способ убедиться в этом - посмотреть, что произойдет, если вы наблюдаете ноль. (Комментарий создан до просмотра комментария @ whuber. По-видимому, эта страница не обновлялась надлежащим образом в моем браузере.)
Кардинал

ОК, я, очевидно, должен сказать, журнал (1 + кол). Очевидно, не эквивалентно, но интересно, были ли отношения, или они могут справиться с подобными явлениями.
Брендан Оконнор

1
Здесь есть полезное обсуждение этой проблемы: blog.stata.com/2011/08/22/…
Майкл Бишоп

Ответы:


22

С одной стороны, в регрессии Пуассона левая часть модельного уравнения представляет собой логарифм ожидаемого числа: .журнал(Е[Y|Икс])

С другой стороны, в «стандартной» линейной модели левая часть представляет собой ожидаемое значение переменной нормального отклика: . В частности, функция связи - это функция тождества.Е[Y|Икс]

Теперь допустим, что - переменная Пуассона, и вы намереваетесь ее нормализовать, взяв log: . Поскольку предполагается, что нормально, вы планируете использовать стандартную линейную модель, для которой левая часть . Но, в общем, . Как следствие, эти два подхода к моделированию различны.Y = log ( Y ) Y E [ Y | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] log ( E [ Y | x ] )YY'знак равножурнал(Y)Y'Е[Y'|Икс]знак равноЕ[журнал(Y)|Икс]Е[журнал(Y)|Икс]журнал(Е[Y|Икс])


6
На самом деле, когда - либо , если P ( Y = F ( X ) | X ) не = 1 для некоторого сг ( X ) измеримая функция F , т.е. Y полностью определяется X . Е(журнал(Y)|Икс)журнал(Е(Y|Икс)) п(Yзнак равное(Икс)|Икс)знак равно1σ(Икс)еYИкс
кардинал

@cardinal. Очень хорошо поставлено.
Suncoolsu

9

Я вижу два важных различия.

Во-первых, прогнозируемые значения (в исходном масштабе) ведут себя по-разному; в логлинейных наименьших квадратах они представляют условные геометрические средние; в модели лог-пуассона представляют условные средства. Поскольку данные в этом типе анализа часто искажены правильно, условное геометрическое среднее будет недооценивать условное среднее.

Второе отличие - это подразумеваемое распределение: логнормальное и пуассоновское. Это относится к структуре гетероскедастичности остатков: остаточная дисперсия, пропорциональная квадрату ожидаемых значений (логнормальное), по сравнению с остаточной дисперсией, пропорциональной ожидаемому значению (Пуассон).


-1

Одно очевидное отличие состоит в том, что регрессия Пуассона будет давать целые числа в качестве точечных предсказаний, тогда как линейная регрессия с числом логарифмов может давать нецелые числа.


12
Как это работает? Разве GLM не оценивает ожидания , которые не обязательно являются интегральными?
whuber

1
Это неправда. Механически пуассоновские регрессии вполне способны обрабатывать нецелые числа. Стандартные ошибки не будут распределяться по Пуассону, но вместо этого вы можете использовать надежные стандартные ошибки.
Мэтью
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.