Выбор альтернатив пуассоновской регрессии для данных о сверхдисперсных счетчиках

В настоящее время я анализирую данные из серии поведенческих экспериментов, которые все используют следующую меру. Участников этого эксперимента просят выбрать подсказки, которые (вымышленные) другие люди могли бы использовать, чтобы помочь решить серию из 10 анаграмм. Участники должны верить, что эти другие люди либо получат, либо потеряют деньги, в зависимости от их результатов в решении анаграмм. Подсказки различаются в том, насколько они полезны. Например, для анаграммы NUNGRIN, анаграммы RUNNING, могут быть три подсказки:

Двигаться быстро (бесполезно)
Что вы делаете в марафонской гонке (полезно)
Не всегда здоровое хобби (бесполезно)

Чтобы сформировать показатель, я подсчитываю, сколько раз (из 10) участник выбирает бесполезную подсказку для другого человека. В экспериментах я использую различные манипуляции, чтобы повлиять на полезность подсказок, которые выбирают люди.

Поскольку мера полезности / бесполезности довольно сильно положительно искажена (большая часть людей всегда выбирает 10 наиболее полезных подсказок), и поскольку мера является переменной подсчета, я использую обобщенную линейную модель Пуассона для анализа этих данных. Однако, когда я сделал еще несколько чтений о регрессии Пуассона, я обнаружил, что, поскольку регрессия Пуассона не оценивает независимо среднее и дисперсию распределения, она часто недооценивает дисперсию в наборе данных. Я начал исследовать альтернативы регрессии Пуассона, такие как квазипуассоновая регрессия или отрицательная биномиальная регрессия. Тем не менее, я признаю, что я довольно новичок в таких моделях, поэтому я прихожу сюда за советом.

Кто-нибудь есть какие-либо рекомендации о том, какую модель использовать для такого рода данных? Есть ли другие соображения, о которых мне следует знать (например, является ли одна конкретная модель более мощной, чем другая?)? На какую диагностику мне следует обратить внимание, чтобы определить, правильно ли выбранная модель обрабатывает мои данные?

poisson-distribution count-data

— Патрик С. Форшер
источник

Как насчет надежной оценки дисперсии / ковариации, чтобы ослабить предположение, что дисперсия равна среднему значению?

— Боскович

Так как они являются данными подсчета и неотрицательны, как насчет квази-пуассона или модели отрицательной биномиальной регрессии, которая объясняет дисперсию?

— Арун

Я думал об использовании квази-пуассоновской или отрицательной биномиальной модели, но я не понимаю, на какую диагонализацию смотреть, чтобы убедиться, что я соответствующим образом моделирую свои данные. Поскольку существует несколько альтернатив (квази-пуассоновская, отрицательная биномиальная и «нулевая» модели), мне также интересно, есть ли хороший способ выбора между этими альтернативами. Например, является ли один метод более мощным, чем другие?

— Патрик С. Форшер

Это зависит от данных. Почему бы не подогнать их все к вашим данным (пуассоновские, отрицательные биномиальные, нулевые завышенные пуассоновские и отрицательные биномиальные, модели препятствий для рассматриваемых) и сравнить их с помощью, скажем, AIC или BIC? См. Cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf. Затем выберите наиболее подходящий для ваших данных. Вы также можете использовать модели квази-правдоподобия, но это вопрос вкуса, мне они не очень нравятся.

— Момо

Чтобы проверить, какой дистрибутив может быть хорошей моделью для вашего ответа, вы можете использовать функцию vcd :: distplot.

— Момо

Ответы:

Ваш результат - количество полезных подсказок из 10, что является биномиальной случайной величиной. Поэтому вам следует проанализировать его с помощью некоторой биномиальной регрессии, возможно, квазибиномиальной, чтобы учесть избыточную дисперсию. Обратите внимание, что пуассоновское и ошибочно названные отрицательные биномиальные распределения подходят для неограниченного количества данных.

— Анико
источник

Я упомянул отрицательный бином, потому что он представляет собой слишком рассеянную альтернативу Пуассону, которую изначально предложил писатель. Поскольку каждый респондент имеет х / 10 подсказок, он может быть биномиальным, но для каждого из 10 подсказок существует фиксированная вероятность pi для i-го респондента, и вхождения являются независимыми. Это может быть не так.

— Майкл Р. Черник

бета-биномиал является еще одной возможностью (бета-биномиал относится к биномиальному, а отрицательный бином является к пуассоновскому). betabinв aodпакете сделаем это.

— Бен Болкер

Я бы также рекомендовал смотреть на отрицательный бином, если бы возможные результаты были бесконечны, как для Пуассона. Вы можете обратиться к одной из книг Джо Хильбе. У него есть один на GEE и один на отрицательной биномиальной регрессии, который он противопоставляет с пуассоновской регрессией. Но, как было указано Анико, есть только 10 подсказок, поэтому каждый респондент может иметь только 0, 1, 2, 3, ..., 10, и, следовательно, ни Пуассона, ни отрицательная экспонента не подходят.

— Майкл Р. Черник
источник

Хороший вопрос от @Aniko. Другой выбор - бета-регрессия. Была статья с названием «Лучшая соковыжималка для лимона», в которой было много информации об этом методе.

— Питер Флом - Восстановить Монику
источник

Но бета будет использоваться для моделирования пропорции, а не переменной подсчета для конечного набора целых чисел.

— Майкл Р. Черник

Он имеет более широкое применение, @MichaelChernick, см. Статью, что довольно хорошо.

— Питер Флом - Восстановить Монику

@PeterFlom Он также не может обрабатывать данные на интервале [0,1], только (0,1).

— Колин