Стратегия выбора подходящей модели для подсчета данных


16

Какова подходящая стратегия для решения, какую модель использовать с данными подсчета? У меня есть данные подсчета, которые мне нужно моделировать как многоуровневые модели, и мне (на этом сайте) было рекомендовано, что лучший способ сделать это - через ошибки или MCMCglmm. Однако я все еще пытаюсь узнать о байесовской статистике, и я подумал, что сначала я должен попытаться приспособить свои данные к обобщенным линейным моделям и игнорировать вложенную структуру данных (просто чтобы получить смутное представление о том, чего ожидать).

Около 70% данных равны 0, а отношение дисперсии к среднему равно 33. Таким образом, данные сильно разбросаны.

Попробовав ряд различных вариантов (включая пуассоновскую, отрицательную биномиальную, квази-и нулевую раздутую модель), я вижу очень небольшую согласованность результатов (варьирование от всего значимого до ничего значительного).

Как я могу принять обоснованное решение о том, какой тип модели выбрать на основе нулевой инфляции и чрезмерной дисперсии? Например, как я могу сделать вывод, что квази-пуассон является более подходящим, чем отрицательный бином (или наоборот), и как я могу знать, что использование одного из них адекватно (или нет) с избыточными нулями? Точно так же, как я могу оценить, что больше нет чрезмерной дисперсии, если используется модель с нулевым раздувом? или как мне выбрать между нулевым завышенным пуассоном и нулевым завышенным отрицательным биномом?

Ответы:


9

Вы всегда можете сравнить модели подсчета, посмотрев на их прогнозы (предпочтительно на основе набора). Дж. Скотт Лонг обсуждает это в графическом виде (вычерчивая прогнозные значения против фактических). Его учебник здесь описан в деталях, но вы также можете посмотреть на 6.4 этого документа .

Вы можете сравнивать модели, используя AIC или BIC, и есть также тест под названием Voung test, с которым я не очень хорошо знаком, но могу сравнить ноль завышенных с не вложенными моделями. Вот статья Sas, кратко описывающая ее на стр. 10, чтобы вы начали. Это также внесено в R постинга


Спасибо за совет. Я обязательно постараюсь проверить прогнозы, прежде чем выбрать модель
Джордж Михаэлидес

5

Несколько вещей, чтобы добавить к тому, что сказал B_Miner:

1) Вы писали, что модели варьировались от «всего значимого» до «ничего значительного», но это не очень хороший способ сравнения моделей. Вместо этого посмотрите на прогнозируемые значения (как предложил B_miner) и размеры эффекта.

2) Если 70% данных равны 0, я не могу себе представить, что модель без инфляции 0 подходит.

3) Даже если вы не хотите использовать байесовский язык, вы можете использовать GLMM в SAS (PROC GLIMMIX или NLMIXED) и в R (различные пакеты). Игнорирование вложенной природы может все испортить.

4) В общем, решение о том, какая модель лучше, это искусство, а не наука. Есть статистика для использования, но она является руководством к суждению. Просто глядя на то, что вы написали, я бы сказал, что модель ZINB выглядит правильно


Предполагается, что в конечном итоге я попытаюсь смоделировать это, используя байесовский метод, но я пытался понять, как я могу принять решение, прежде чем подгонять модели. Если есть вероятность, что игнорирование вложенной природы данных испортит их, я сначала попробую их GLMM. Единственный пакет для R, о котором я знаю, который может сделать многоуровневый ZINB - это glmmADMB. Вы бы порекомендовали другие пакеты?
Джордж Михаэлидес

4

Насколько я понимаю, распределения с нулевым раздувом следует использовать в тех случаях, когда для определенных элементов есть обоснование для получения количества нулей по сравнению с любым другим числом. Другими словами, следует использовать распределение с нулевым раздувом, если нули создаются отдельным процессом, а не тот, который производит другие подсчеты. Если у вас нет никаких оснований для этого, учитывая избыточную дисперсию в вашей выборке, я предлагаю использовать отрицательное биномиальное распределение, поскольку оно точно представляет обилие нулей и представляет ненаблюдаемую неоднородность путем свободной оценки этого параметра. Как уже упоминалось выше, книга Скотта Лонга - отличный справочник.


Спасибо за Ваш ответ. На самом деле, я начал думать о том, могут ли разные элементы давать 0 или любое другое число, и я на самом деле думаю, что есть пара моих переменных, которые объясняют только 0 против любого другого значения. Так что, вероятно, сначала я должен хотя бы попробовать ZINB, чтобы увидеть, работают ли эти переменные так, как я ожидаю, что они будут работать.
Джордж Михаэлидес

3

абсолютно согласен с тем, что сказал Мэтт, сначала вы должны подумать о фоне данных ... Не имеет смысла подгонять модели ZI, когда в популяции нет триггеров, генерирующих ноль! Преимущество моделей NB состоит в том, что они могут отображать ненаблюдаемую гетерогенность в гамма-распределенной случайной переменной. Технически: Основными причинами чрезмерной дисперсии являются нестабильность гетерогенности и нулевая инфляция. Я не верю, что твоя подгонка плохая. Между прочим, чтобы получить хорошее соответствие, вы всегда должны сравнивать Deviance со степенями свободы вашей модели. Если отклонение D больше, чем n- (p + 1) (это df), вам следует искать лучшую модель. Хотя в большинстве своем нет моделей лучше, чем ZINB, чтобы избавиться от чрезмерной дисперсии.

если вы хотите добавить ZINB в R, получите пакет psclи попробуйте использовать команду zeroinfl(<model>, dist=negative). Для получения дополнительной информации см. ?zeroinflПосле загрузки необходимого пакета!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.