Диагностика для обобщенных линейных (смешанных) моделей (особенно остатков)

25

В настоящее время я пытаюсь найти подходящую модель для сложных данных подсчета (зависимая переменная). Я пробовал различные модели (модели смешанных эффектов необходимы для моего вида данных), такие как lmerи lme4(с лог-преобразованием), а также обобщенные линейные модели смешанных эффектов с различными семействами, такими как гауссовский или отрицательный бином.

Тем не менее, я совершенно не уверен, как правильно диагностировать получающиеся припадки. Я нашел много разных мнений на эту тему в Интернете. Я думаю, что диагностика по линейной (смешанной) регрессии довольно проста. Вы можете пойти дальше и проанализировать остатки (нормальность), а также изучить гетероскедастичность, построив график подгоночных значений по сравнению с остатками.

Тем не менее, как вы делаете это правильно для обобщенной версии? Давайте пока сосредоточимся на отрицательной биномиальной (смешанной) регрессии. Я видел довольно противоположные заявления относительно остатков здесь:

При проверке невязок на нормальность в обобщенных линейных моделях в первом ответе указывается, что обычные невязки обычно не распределяются для GLM; Я думаю, что это понятно. Однако затем указывается, что остатки Пирсона и отклонения также не должны быть нормальными. Тем не менее, второй ответ гласит, что остатки отклонения должны быть нормально распределены (в сочетании со ссылкой).
То, что остатки отклонений должны быть нормально распределены, намекается в документации для ? Glm.diag.plots (из bootпакета R ).
В этом сообщении в блоге автор впервые изучил нормальность того, что я предполагаю, является остатками Пирсона для регрессионной модели смешанных эффектов NB. Как и ожидалось (по моему честному мнению), остатки не показались нормальными, и автор предположил, что эта модель плохо подходит. Однако, как указано в комментариях, остатки должны быть распределены в соответствии с отрицательным биномиальным распределением. На мой взгляд, это ближе всего к истине, поскольку остатки GLM могут иметь другие распределения, чем нормальные. Это верно? Как проверить наличие таких вещей, как гетероскедастичность?
Последний пункт (построение графиков остатков по отношению к квантилям предполагаемого распределения) подчеркивается в Ben & Yohai (2004) . В настоящее время, кажется, это путь для меня.

В двух словах: Как правильно изучить соответствие моделей обобщенной линейной (смешанной) регрессионной модели, особенно с упором на остатки?

— fsociety
источник

1

Остатки для GLM в целом не являются нормальными (см. Здесь ), но обратите внимание, что существует множество видов невязок для GLM. Например, glm.diag.plotsговорит , что это из-за остаточного отклонения от натянутого ножа (я подозреваю, что различие важно). Кроме того, я собираю, у вас есть данные подсчета ; Вы можете сосредоточиться на этом факте. Например, предполагается, что отсчеты (в некотором смысле) гетероскедастичны. Диагностические графики для регрессии подсчета должны быть полезны для вас (хотя это не относится к аспекту смешанных эффектов).

— gung - Восстановить Монику

Я знаком с постом, который вы упомянули. Тем не менее, есть также утверждение, которое предполагает, что (отклонения) остатки должны быть нормальными «мы видим очень большие остатки и существенное отклонение остатков отклонения от нормального (все говорят против Пуассона)».

— Общество

19

Этот ответ основан не на моих знаниях, а скорее на том, что Bolker et al. (2009) написал в влиятельной статье в журнале Trends in Ecology and Evolution . Поскольку статья не является открытым доступом (хотя поиск ее в Google ученый может оказаться успешным, я подумал, что приведу важные отрывки, которые могут быть полезны для решения части вопросов. Итак, опять же, это не то, что я придумал сам, но я думаю, он представляет собой лучшую сжатую информацию о GLMM (включая диагностику) в очень прямолинейном и простом для понимания стиле письма. Если каким-либо образом этот ответ не подходит по какой-либо причине, я просто удалю его. Вещи, которые я нахожу полезно в отношении вопросов, касающихся диагностики, выделены вполужирный .

Страница 127:

Исследователи, столкнувшиеся с ненормальными данными, часто пытаются использовать такие ярлыки, как преобразование данных для достижения нормальности и однородности дисперсии, использование непараметрических тестов или использование устойчивости классического ANOVA к ненормальности для сбалансированных конструкций [15]. Они могут вообще игнорировать случайные эффекты (таким образом совершая псевдорепликацию) или рассматривать их как фиксированные факторы [16]. Однако такие ярлыки могут не работать (например, данные подсчета со многими нулевыми значениями не могут быть преобразованы в нормальное состояние). Даже когда они преуспевают, они могут нарушать статистические допущения (даже непараметрические тесты делают допущения, например, об однородности дисперсии по группам) или ограничивать объем выводов (нельзя экстраполировать оценки фиксированных эффектов на новые группы). Вместо того, чтобы включать их данные в классические статистические структуры, исследователи должны использовать статистические подходы, которые соответствуют их данным. Обобщенные линейные смешанные модели (GLMM) объединяют свойства двух статистических структур, которые широко используются в экологии и эволюции, линейных смешанных моделей (которые включают в себя случайные эффекты) и обобщенных линейных моделей (которые обрабатывают ненормальные данные с использованием функций связи и экспоненциального семейства [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов. линейные смешанные модели (которые включают в себя случайные эффекты) и обобщенные линейные модели (которые обрабатывают ненормальные данные, используя функции связи и экспоненциальное семейство [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов. линейные смешанные модели (которые включают в себя случайные эффекты) и обобщенные линейные модели (которые обрабатывают ненормальные данные, используя функции связи и экспоненциальное семейство [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов.

Страница 129, вставка 1:

В невязки указано overdispersion , поэтому мы переоборудовали данные с моделью квази-Пуассона. Несмотря на большой оценочный масштабный параметр (10,8), исследовательские графики не выявили признаков выбросов на уровне отдельных лиц, генотипов или популяций. Мы использовали квази-AIC (QAIC), используя одну степень свободы для случайных эффектов [49], для случайного эффекта, а затем для выбора модели с фиксированным эффектом.

Страница 133, вставка 4:

Здесь мы наметим общую структуру для построения полной (самой сложной) модели, первого шага в анализе GLMM. После этого процесса можно затем оценить параметры и сравнить подмодели, как описано в основном тексте и на рисунке 1.

Укажите фиксированные (лечение или ковариаты) и случайные эффекты (экспериментальные, пространственные или временные блоки, отдельные лица и т. Д.). Включайте только важные взаимодействия. Ограничьте модель априори допустимым уровнем сложности, основываясь на эмпирических правилах (> 5–6 уровней случайных эффектов на случайный эффект и> 10–20 выборок на уровень обработки или экспериментальную единицу) и знаниях адекватных размеров выборки, полученных из предыдущие исследования [64,65].

Выберите распределение ошибок и функцию связи (например, распределение Пуассона и ссылку журнала для данных подсчета, биномиальное распределение и ссылку журнала для данных пропорции).

Графическая проверка : являются ли различия данных (преобразованные функцией связи) однородными по категориям? Являются ли отклики преобразованных данных линейными по отношению к непрерывным предикторам? Есть ли отдельные люди или группы? Соответствуют ли распределения внутри групп предполагаемому распределению?

Подгоните GLM с фиксированным эффектом как к полному (объединенному) набору данных, так и в пределах каждого уровня случайных факторов [28, 50]. Оценочные параметры должны быть примерно нормально распределены по группам (параметры на уровне группы могут иметь большую неопределенность, особенно для групп с небольшими размерами выборки). При необходимости измените модель (например, измените функцию связи или добавьте ковариаты).

Fit полный GLMM. Недостаточно памяти компьютера или слишком медленно: уменьшите сложность модели. Если оценка успешно выполняется на подмножестве данных, попробуйте более эффективный алгоритм оценки (например, PQL, если необходимо). Невозможность сближения (предупреждения или ошибки): уменьшите сложность модели или измените параметры оптимизации (убедитесь, что полученные ответы имеют смысл). Попробуйте другие алгоритмы оценки. Компоненты нулевой дисперсии или сингулярность (предупреждения или ошибки): убедитесь, что модель правильно определена и идентифицируема (т.е. теоретически можно оценить все компоненты). Уменьшите сложность модели. Добавление информации в модель (дополнительные ковариаты или новые группировки для случайных эффектов) может облегчить проблемы, равно как и центрирование непрерывных ковариат путем вычитания их среднего значения [50]. При необходимости исключить случайные эффекты из полной модели, отбрасывание (i) слагаемых с меньшей внутренней биологической заинтересованностью, (ii) слагаемых с очень малыми оценочными отклонениями и / или большой неопределенностью или (iii) слагаемых взаимодействия. (Ошибки сходимости или нулевые отклонения могут указывать на недостаточность данных.)

Еще раз проверьте предположения для окончательной модели (как в шаге 3) и убедитесь, что оценки параметров и доверительные интервалы являются разумными (гигантские доверительные интервалы могут указывать на проблемы подбора). Величина стандартизированных остатков должна быть независимой от установленных значений. Оценить избыточную дисперсию (сумма квадратов невязки Пирсона должна быть распределена в [ ] [66,67]). При необходимости измените распределения или оцените масштабный параметр. $\chi^2$ Убедитесь, что полная модель, включающая случайные эффекты с небольшими стандартными отклонениями, дает результаты, аналогичные окончательной модели. Если разные модели приводят к существенно различным оценкам параметров, рассмотрите усреднение модели.

Графики остатков следует использовать для оценки избыточной дисперсии, а преобразованные отклонения должны быть однородными по категориям. Нигде в статье не упоминалось, что остатки должны быть нормально распределены.

Я думаю, что причина, почему существуют противоречивые утверждения, отражает то, что GLMMs (стр. 127-128) ...

... удивительно сложно использовать даже для статистиков. Хотя несколько программных пакетов могут обрабатывать GLMM (Таблица 1), немногие экологи и биологи-эволюционисты знают о диапазоне вариантов или возможных подводных камнях. В обзоре статей об экологии и эволюции, опубликованном Google Scholar с 2005 года, 311 из 537 анализов GLMM (58%) каким-то образом неправильно использовали эти инструменты (см. Дополнительный онлайн-материал).

И вот несколько полностью проработанных примеров использования GLMM, включая диагностику.

Я понимаю, что этот ответ больше похож на комментарий и должен рассматриваться как таковой. Но раздел комментариев не позволяет мне добавить такой длинный комментарий. Кроме того, поскольку я считаю, что этот документ представляет ценность для этого обсуждения (но, к сожалению, за окном окупаемости), я подумал, что было бы полезно процитировать здесь важные отрывки.

Цитируемые статьи:

[15] - Г.П. Куинн, М.Дж. Ке (2002): экспериментальный дизайн и анализ данных для биологов, издательство Кембриджского университета.

[16] - MJ Crawley (2002): Статистические вычисления: введение в анализ данных с использованием S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): модели со смешанными эффектами в S и S-PLUS, Springer.

[49] - Ф. Вайда, С. Бланчард (2005): Условная информация Акаике для моделей со смешанными эффектами. Биометрика, 92, с. 351–370.

[50] - А. Гельман, Дж. Хилл (2006): анализ данных с использованием регрессионных и многоуровневых / иерархических моделей, издательство Кембриджского университета.

[64] - Н.Дж. Готелли, А.М. Эллисон (2004): учебник по экологической статистике, Sinauer Associates.

[65] - Ф.Дж. Харрелл (2001): Стратегии регрессионного моделирования, Springer.

[66] - Дж. К. Линдси (1997): Применение обобщенных линейных моделей, Springer.

[67] - W. Venables, BD Ripley (2002): Современная прикладная статистика с S, Springer.

— Стефан
источник

Спасибо, это действительно полезно, я знал о примерах кодирования Bolker, но не о какой-то реальной статье. Однако меня по-прежнему интересует, как графическая проверка применяется к очень крупномасштабным данным с тысячами групп. Несколько статей (например, той), которые пытаются дать некоторые рекомендации о том, как правильно проверить ваши модели, применимы только к очень мелким данным. Тогда гораздо проще выбрать, например, группы и что-то визуализировать. Я действительно думаю, что хороший научный вклад может быть внесен, если в будущем кто-то пройдет более сложный пример.

— Общество

1

Я рад, что это было полезно! Я думаю, что представленные примеры уже довольно сложны (по крайней мере для меня). Я предполагаю, что большая проблема состоит в том, что большие наборы данных и более сложные модели могут стать вычислительно неосуществимыми, как упоминается в тексте: «[...] чтобы найти оценки ML, необходимо интегрировать вероятности по всем возможным значениям случайных эффектов. Для GLMM этот расчет в лучшем случае медленный, а в худшем (например, для большого числа случайных эффектов) вычислительно невозможен ». Что я нахожу удивительным, и что следует иметь в виду, это то, что мы используем инструменты, которые активно исследуются!

— Стефан

9

Это старый вопрос, но я подумал, что было бы полезно добавить, что вариант 4, предложенный OP, теперь доступен в пакете DHARMa R (доступном от CRAN, см. Здесь ).

Пакет делает визуальные остаточные проверки, предложенные принятым ответом, намного более надежными / легкими.

Из описания пакета:

Пакет DHARMa использует подход, основанный на моделировании, для создания легко интерпретируемых масштабированных невязок из подогнанных обобщенных линейных смешанных моделей. В настоящее время поддерживаются все классы 'merMod' из 'lme4' ('lmerMod', 'glmerMod'), 'glm' (включая 'negbin' из 'MASS', но исключая квази-распределения) и классы моделей 'lm'. В качестве альтернативы можно также обрабатывать созданные извне симуляции, например апостериорные прогностические симуляции из байесовского программного обеспечения, такого как «JAGS», «STAN» или «BUGS». Результирующие невязки стандартизированы до значений от 0 до 1 и могут быть интерпретированы как интуитивно как остатки от линейной регрессии. Пакет также предоставляет ряд функций построения и тестирования для типичной проблемы неправильного определения модели,

— Флориан Хартиг
источник

1

Очень хорошее дополнение к этой теме!

— Стефан