Сверхдисперсность и моделирование в пуассоновских моделях случайных эффектов со смещениями


12

Я столкнулся с рядом практических вопросов при моделировании данных подсчета из экспериментальных исследований с использованием эксперимента внутри объекта. Я кратко опишу эксперимент, данные и то, что я уже сделал, а затем мои вопросы.

Четыре различных фильма были показаны выборке респондентов в последовательности. После каждого фильма проводилось интервью, в котором мы подсчитывали количество появлений определенных утверждений, которые представляли интерес для RQ (прогнозируемой переменной количества). Мы также записали максимальное количество возможных вхождений (единицы кодирования; переменная смещения). Кроме того, некоторые особенности фильмов были измерены в непрерывном масштабе, для одного из которых у нас есть причинная гипотеза о влиянии функции фильма на количество утверждений, в то время как другие контролируют (предикторы).

Принятая до настоящего времени стратегия моделирования выглядит следующим образом:

Оцените случайную модель Пуассона со случайным эффектом, в которой причинная переменная используется в качестве ковариаты, а другие переменные - в качестве управляющих ковариат. Эта модель имеет смещение, равное «log (единицам)» (единицам кодирования). Случайные эффекты выполняются по субъектам (специфичные для фильма значения вложены в объекты). Мы находим причинную гипотезу подтвержденной (сиг. Коэффициент причинной переменной). Для оценки мы использовали пакет lme4 в R, в частности, функцию glmer.

Теперь у меня есть следующие вопросы. Распространенной проблемой в пуассоновской регрессии является избыточная дисперсия. Я знаю, что это можно проверить, используя отрицательную биномиальную регрессию и оценивая, улучшает ли ее параметр дисперсии соответствие модели простой модели Пуассона. Однако я не знаю, как это сделать в контексте случайных эффектов.

  • Как мне проверить на избыточную дисперсию в моей ситуации? Я проверил чрезмерную дисперсию в простой регрессии Пуассона / отрицательной биномиальной модели (без случайных эффектов), которую я знаю, как соответствовать. Тест предполагает наличие чрезмерной дисперсии. Однако, поскольку эти модели не учитывают кластеризацию, я полагаю, что этот тест некорректен. Также я не уверен насчет роли смещения для испытаний на избыточную дисперсию.
  • Есть ли что-то вроде регрессионной модели с отрицательным биномиальным случайным эффектом и как я должен соответствовать ей в R?
  • Есть ли у вас предложения по альтернативным моделям, которые я должен примерить на данные, т.е. принять во внимание структуру повторных измерений, переменные счета и экспозицию (единицы кодирования)?

1
для начала, посмотрите раздел «чрезмерная дисперсия» на glmm.wikidot.com/faq
Бен Болкер

1
Спасибо, очень полезно! Может быть, кто-то хочет собрать ответ из этой и другой информации.
Томка

Ответы:


1

Существует максимально возможное количество подсчитанных ответов, связанных с количеством задаваемых вопросов. Хотя это можно смоделировать как процесс Пуассона типа подсчета, другая интерпретация состоит в том, что процесс Пуассона не имеет теоретического предела для числа подсчитанных ответов, то есть он находится на . Другое распределение, т. Е. Дискретное, имеющее конечную поддержку , например, бета-бином , может быть более подходящим, поскольку оно имеет более изменчивую форму. Однако это только предположение, и на практике я бы искал ответ на более общий вопрос, используя грубую силу ...[0,)

Вместо того, чтобы проверять наличие избыточной дисперсии , которая не может дать полезного ответа, и, хотя можно проанализировать индексы дисперсии для количественной оценки дисперсии, я бы с большей пользой предложил бы поиск лучшего распределения с использованием опции дискретного распределения поиска с подходящим качеством. программа, например, подпрограмма MatDematica FindDistribution . Этот тип поиска делает довольно исчерпывающую работу по угадыванию того, какие известные распределения лучше всего работают не только для уменьшения чрезмерной дисперсии, но и для более полезного моделирования многих других характеристик данных, например, пригодности соответствия, измеряемой дюжиной различные пути.

Чтобы дополнительно изучить распределения моих кандидатов, я бы провел специальную проверку остатков, чтобы проверить гомоскедастичность и / или тип распределения, а также рассмотреть возможность согласования распределений кандидатов в соответствии с физическим объяснением данных. Опасность этой процедуры заключается в определении распределения, которое несовместимо с лучшим моделированием расширенного набора данных. Опасность не выполнять процедуру post hoc состоит в том, чтобы априори назначать произвольно выбранный дистрибутив без надлежащего тестирования (вывоз мусора). Превосходство post hocПодход заключается в том, что он ограничивает ошибки подбора, и это также является его слабостью, т. е. он может преуменьшать ошибки моделирования по чистой случайности, когда делается попытка подбора многих распределений. Это то, что является причиной для изучения остатков и рассмотрения телесности. Сверху вниз или априорный подход предложения нет таких постфактум проверки разумности. То есть, единственный метод сравнения физичности моделирования с различными распределениями - это сравнить их по отдельности . Таким образом, возникает природа физической теории, мы проверяем гипотетическое объяснение данных во многих экспериментах, прежде чем принять их как исчерпывающие альтернативные объяснения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.