Использование пуассоновской регрессии для непрерывных данных?


11

Можно ли использовать распределение Пуассона для анализа как непрерывных, так и дискретных данных?

У меня есть несколько наборов данных, в которых переменные ответа являются непрерывными, но напоминают распределение Пуассона, а не нормальное распределение. Однако распределение Пуассона является дискретным распределением и обычно связано с числами или счетами.


Чем же ваши эмпирические распределения отличаются от гамма-вариаций?
whuber

1
Я использовал гамма-распределение для этих данных. Если вы используете гамма-распределение со ссылкой на журнал, вы получите почти тот же результат, который вы получаете от слишком рассеянной модели Пуассона. Однако, в большинстве статистических пакетов, с которыми я знаком, регрессия Пуассона проще и гораздо более гибкая.
user3136

Разве не было бы лучше других дистрибутивов, например, предложение Гаммы от whuber?
Питер Флом - Восстановить Монику

1
@PeterFlom - Интересно, часто ли возникает эта проблема, потому что пакет glmnet в R не поддерживает ни семейство Gamma, ни семейство Gaussian с функцией log-link. Тем не менее, поскольку glmnet используется в качестве пакета прогнозного моделирования (следовательно, пользователи интересуются только коэффициентами модели, а не коэффициентными ошибками), и поскольку коэффициент Пуассона dbn выдает согласованный коэффициент. оценки для моделей вида ln [E (y)] = beta0 + beta * X с непрерывными ответами независимо от распределения, я предполагаю, что авторы glmnet не удосужились включить эти дополнительные семейства.
RobertF

Ответы:


12

Ключевым допущением обобщенной линейной модели, которая здесь уместна, является связь между дисперсией и средним значением отклика, учитывая значения предикторов. Когда вы указываете распределение Пуассона, это означает, что вы предполагаете, что условная дисперсия равна условному среднему значению. * Фактическая форма распределения не имеет большого значения: это может быть Пуассон, или гамма, или нормальное, или что-нибудь еще, пока эти отношения средней дисперсии сохраняются.

* Вы можете ослабить предположение, что дисперсия равна среднему значению пропорциональности, и все же обычно получать хорошие результаты.


9

Если вы говорите об использовании отклика Пуассона в обобщенной линейной модели, то да, если вы хотите сделать предположение, что дисперсия каждого наблюдения равна его среднему значению.

Если вы не хотите этого делать, другой альтернативой может быть преобразование ответа (например, регистрация логов).


Я думаю, в дополнение к вашей точке зрения, даже если @ user3136 не желает делать предположение о значении = дисперсия, он / она может использовать quasipoissonсемью в glm.
Suncoolsu

2
Но моя проблема в том, почему вы хотите преобразовать непрерывные данные в дискретные. По сути, это потеря информации. Также, когда простое logпреобразование работало бы, зачем дискретизировать ваши данные? Использование glmработает, но каждый результат основан на асимптотике (которая может или не может иметь место)
Suncoolsu

@suncoolsu: 1) квазипуассон делает предположение о среднем пропорциональным дисперсии. 2) Я не имел в виду преобразование в дискретное, я имел в виду преобразование (поддержание непрерывности), чтобы вы могли использовать другую модель.
Саймон Бирн

да - я понял согласен с тобой Извините, я говорил об этом вопросе. Квази-Пуассон, учитывая сверхдисциплину, верно? (если я правильно помню, ср. Faraway 2006)
suncoolsu

В этом конкретном случае я не был удовлетворен тем, что любое преобразование, которое я пробовал (log, sqrt, box-cox), дало хорошее приближение к нормальности. Между прочим, если я использую метод преобразования нормальных оценок, тогда я могу преобразовать большинство данных в почти прекрасную нормальность, но я не видел, чтобы это преобразование широко использовалось, поэтому я предполагаю, что есть ловушка (ее трудно преобразовать обратно).
user3136
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.