Какова подходящая модель для данных недостаточного рассеяния?


24

Я пытаюсь смоделировать данные подсчета в R, которые, по-видимому, недостаточно распределены (параметр дисперсии ~ .40). Вероятно, поэтому модель glmс family = poissonили отрицательной биномиальной ( glm.nb) не имеет значения. Когда я смотрю на описания моих данных, у меня нет типичной асимметрии данных подсчета, и остатки в моих двух экспериментальных условиях также являются однородными.

Итак, мои вопросы:

  1. Должен ли я даже использовать специальный регрессионный анализ для своих данных подсчета, если мои данные подсчета не ведут себя как данные подсчета? Иногда я сталкиваюсь с ненормальностью (обычно из-за куртоза), но я использовал метод начального процентиля для сравнения усеченных средних значений (Wilcox, 2012), чтобы учесть ненормальность. Можно ли заменить методы подсчета данных каким-либо надежным методом, предложенным Wilcox и реализованным в пакете WRS?

  2. Если я должен использовать регрессионный анализ для подсчета данных, как я могу объяснить недостаточную дисперсию? Пуассон и отрицательное биномиальное распределение предполагают более высокую дисперсию, так что это не должно быть уместно, верно? Я думал о применении квазипуассоновского распределения, но это обычно рекомендуется для чрезмерной дисперсии. Я читал о бета-биномиальных моделях, которые, по-видимому, способны объяснить как избыточную, так и недостаточную дисперсию, доступны в VGAMпакете R. Однако авторы, похоже, рекомендуют наклонный дистрибутив Пуассона , но я не могу найти его в пакете. ,

Может кто-нибудь порекомендовать процедуру для недостаточно распределенных данных и, возможно, предоставить пример кода R для этого?


1
Откуда вы знаете, что ваши данные недостаточно распространены? Как вы рассчитываете параметр дисперсии?
Хонг Ой

1
Это также помогло бы рассказать нам больше о том, что вас интересует. Для оценок точек линейного предиктора и предсказания значений недодисперсия редко является проблемой, но тесты и интервалы могут быть излишне консервативными (квазисемейства могут помочь в этом). Тем не менее, для «нормального» подхода правдоподобия проверьте COM Пуассона и другие обобщенные модели Пуассона.
Момо

@ Hung Ooi: я тестировал дисперсию с дисперсией тест (Poissonmodel, alternative = c ("less")), и тест оказался значительным.
Sil

1
@ Момо: я хочу проверить, отличаются ли переговоры диад в двух экспериментальных условиях правильными предложениями, которые они делают. Правильные предложения означают, что диады заявляют о большем количестве проблем, соответствующих интересам их команд, вместо того, чтобы требовать больше вопросов для другой стороны. Во-первых, я даже не знал, что это данные подсчета. Вы имеете в виду распределение Конвея-Максвелла-Пуассона от COM Poisson? Большое спасибо уже!
Sil

3
Спасибо за дополнительную информацию. Да, я имел в виду Конуэй-Максвелла Пуассона. Shmueli & co разработала для нее своего рода обобщенную линейную модель, также есть пакет R, если вы хотите попробовать.
Момо

Ответы:


9

Лучшие --- и стандартные способы обработки недостаточно рассредоточенных данных Пуассона - это использование обобщенной модели Пуассона, или, возможно, модели препятствий. Три модели подсчета параметров могут также использоваться для недостаточно распределенных данных; например, Фэдди-Смит, Варинг, Фамойе, Конвей-Максвелл и другие модели обобщенного счета. Единственный недостаток - интерпретируемость. Но для общих недисперсных данных следует использовать обобщенный Пуассон. Это похоже на отрицательный бином для перераспределенных данных. Я обсуждаю это более подробно в двух моих книгах, «Моделирование подсчета данных» (2014) и «Отрицательная биномиальная регрессия», 2-е издание (2011), опубликованных издательством Cambridge University Press. В R пакет VGAM допускает обобщенную регрессию Пуассона (GP). Отрицательные значения параметра дисперсии указывают на корректировку недостаточной дисперсии. Вы также можете использовать модель GP для сверхдисперсных данных, но в целом модель NB лучше. Когда дело доходит до этого, лучше всего определить причину недостаточного рассеивания, а затем выбрать наиболее подходящую модель для борьбы с ней.


Добро пожаловать! Пожалуйста, зарегистрируйте и / или объедините свои учетные записи (информацию о том, как это сделать, вы можете найти в разделе « Моя учетная запись » нашего справочного центра ), и тогда вы сможете редактировать и комментировать свой собственный вопрос. (Ваш оригинальный аккаунт здесь .)
gung - Восстановить Монику

Можете ли вы выполнить обобщенный анализ Пуассона на SPSS?
Грейс Кэрролл

3

Однажды я столкнулся с недостаточно рассредоточенным Пуассоном, который имел отношение к частоте, с которой люди будут играть в социальную игру. Оказалось, это из-за крайней регулярности, с которой люди будут играть по пятницам. Удаление пятничных данных дало мне ожидаемый сверхдисперсный Пуассон. Возможно, у вас есть возможность аналогичным образом редактировать ваши данные.


1

Существуют ситуации, когда недисперсия сливается с нулевой инфляцией, которая типична для подсчета предпочтительных детей лицами обоих полов. Я не нашел способ запечатлеть это на сегодняшний день

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.