Этот ответ основан не на моих знаниях, а скорее на том, что Bolker et al. (2009) написал в влиятельной статье в журнале Trends in Ecology and Evolution . Поскольку статья не является открытым доступом (хотя поиск ее в Google ученый может оказаться успешным, я подумал, что приведу важные отрывки, которые могут быть полезны для решения части вопросов. Итак, опять же, это не то, что я придумал сам, но я думаю, он представляет собой лучшую сжатую информацию о GLMM (включая диагностику) в очень прямолинейном и простом для понимания стиле письма. Если каким-либо образом этот ответ не подходит по какой-либо причине, я просто удалю его. Вещи, которые я нахожу полезно в отношении вопросов, касающихся диагностики, выделены вполужирный .
Страница 127:
Исследователи, столкнувшиеся с ненормальными данными, часто пытаются использовать такие ярлыки, как преобразование данных для достижения нормальности и однородности дисперсии, использование непараметрических тестов или использование устойчивости классического ANOVA к ненормальности для сбалансированных конструкций [15]. Они могут вообще игнорировать случайные эффекты (таким образом совершая псевдорепликацию) или рассматривать их как фиксированные факторы [16]. Однако такие ярлыки могут не работать (например, данные подсчета со многими нулевыми значениями не могут быть преобразованы в нормальное состояние). Даже когда они преуспевают, они могут нарушать статистические допущения (даже непараметрические тесты делают допущения, например, об однородности дисперсии по группам) или ограничивать объем выводов (нельзя экстраполировать оценки фиксированных эффектов на новые группы). Вместо того, чтобы включать их данные в классические статистические структуры, исследователи должны использовать статистические подходы, которые соответствуют их данным. Обобщенные линейные смешанные модели (GLMM) объединяют свойства двух статистических структур, которые широко используются в экологии и эволюции, линейных смешанных моделей (которые включают в себя случайные эффекты) и обобщенных линейных моделей (которые обрабатывают ненормальные данные с использованием функций связи и экспоненциального семейства [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов. линейные смешанные модели (которые включают в себя случайные эффекты) и обобщенные линейные модели (которые обрабатывают ненормальные данные, используя функции связи и экспоненциальное семейство [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов. линейные смешанные модели (которые включают в себя случайные эффекты) и обобщенные линейные модели (которые обрабатывают ненормальные данные, используя функции связи и экспоненциальное семейство [например, нормальное, пуассоновское или биномиальное] распределение). GLMM являются лучшим инструментом для анализа ненормальных данных, которые включают случайные эффекты: в принципе, все, что нужно сделать, это указать распределение, функцию связи и структуру случайных эффектов.
Страница 129, вставка 1:
В невязки указано overdispersion , поэтому мы переоборудовали данные с моделью квази-Пуассона. Несмотря на большой оценочный масштабный параметр (10,8), исследовательские графики не выявили признаков выбросов на уровне отдельных лиц, генотипов или популяций. Мы использовали квази-AIC (QAIC), используя одну степень свободы для случайных эффектов [49], для случайного эффекта, а затем для выбора модели с фиксированным эффектом.
Страница 133, вставка 4:
Здесь мы наметим общую структуру для построения полной (самой сложной) модели, первого шага в анализе GLMM. После этого процесса можно затем оценить параметры и сравнить подмодели, как описано в основном тексте и на рисунке 1.
Укажите фиксированные (лечение или ковариаты) и случайные эффекты (экспериментальные, пространственные или временные блоки, отдельные лица и т. Д.). Включайте только важные взаимодействия. Ограничьте модель априори допустимым уровнем сложности, основываясь на эмпирических правилах (> 5–6 уровней случайных эффектов на случайный эффект и> 10–20 выборок на уровень обработки или экспериментальную единицу) и знаниях адекватных размеров выборки, полученных из предыдущие исследования [64,65].
Выберите распределение ошибок и функцию связи (например, распределение Пуассона и ссылку журнала для данных подсчета, биномиальное распределение и ссылку журнала для данных пропорции).
Графическая проверка : являются ли различия данных (преобразованные функцией связи) однородными по категориям? Являются ли отклики преобразованных данных линейными по отношению к непрерывным предикторам? Есть ли отдельные люди или группы? Соответствуют ли распределения внутри групп предполагаемому распределению?
Подгоните GLM с фиксированным эффектом как к полному (объединенному) набору данных, так и в пределах каждого уровня случайных факторов [28, 50]. Оценочные параметры должны быть примерно нормально распределены по группам (параметры на уровне группы могут иметь большую неопределенность, особенно для групп с небольшими размерами выборки). При необходимости измените модель (например, измените функцию связи или добавьте ковариаты).
Fit полный GLMM. Недостаточно памяти компьютера или слишком медленно: уменьшите сложность модели. Если оценка успешно выполняется на подмножестве данных, попробуйте более эффективный алгоритм оценки (например, PQL, если необходимо). Невозможность сближения (предупреждения или ошибки): уменьшите сложность модели или измените параметры оптимизации (убедитесь, что полученные ответы имеют смысл). Попробуйте другие алгоритмы оценки. Компоненты нулевой дисперсии или сингулярность (предупреждения или ошибки): убедитесь, что модель правильно определена и идентифицируема (т.е. теоретически можно оценить все компоненты). Уменьшите сложность модели. Добавление информации в модель (дополнительные ковариаты или новые группировки для случайных эффектов) может облегчить проблемы, равно как и центрирование непрерывных ковариат путем вычитания их среднего значения [50]. При необходимости исключить случайные эффекты из полной модели, отбрасывание (i) слагаемых с меньшей внутренней биологической заинтересованностью, (ii) слагаемых с очень малыми оценочными отклонениями и / или большой неопределенностью или (iii) слагаемых взаимодействия. (Ошибки сходимости или нулевые отклонения могут указывать на недостаточность данных.)
Еще раз проверьте предположения для окончательной модели (как в шаге 3) и убедитесь, что оценки параметров и доверительные интервалы являются разумными (гигантские доверительные интервалы могут указывать на проблемы подбора). Величина стандартизированных остатков должна быть независимой от установленных значений. Оценить избыточную дисперсию (сумма квадратов невязки Пирсона должна быть распределена в [ ] [66,67]). При необходимости измените распределения или оцените масштабный параметр. χ2Убедитесь, что полная модель, включающая случайные эффекты с небольшими стандартными отклонениями, дает результаты, аналогичные окончательной модели. Если разные модели приводят к существенно различным оценкам параметров, рассмотрите усреднение модели.
Графики остатков следует использовать для оценки избыточной дисперсии, а преобразованные отклонения должны быть однородными по категориям. Нигде в статье не упоминалось, что остатки должны быть нормально распределены.
Я думаю, что причина, почему существуют противоречивые утверждения, отражает то, что GLMMs (стр. 127-128) ...
... удивительно сложно использовать даже для статистиков. Хотя несколько программных пакетов могут обрабатывать GLMM (Таблица 1), немногие экологи и биологи-эволюционисты знают о диапазоне вариантов или возможных подводных камнях. В обзоре статей об экологии и эволюции, опубликованном Google Scholar с 2005 года, 311 из 537 анализов GLMM (58%) каким-то образом неправильно использовали эти инструменты (см. Дополнительный онлайн-материал).
И вот несколько полностью проработанных примеров использования GLMM, включая диагностику.
Я понимаю, что этот ответ больше похож на комментарий и должен рассматриваться как таковой. Но раздел комментариев не позволяет мне добавить такой длинный комментарий. Кроме того, поскольку я считаю, что этот документ представляет ценность для этого обсуждения (но, к сожалению, за окном окупаемости), я подумал, что было бы полезно процитировать здесь важные отрывки.
Цитируемые статьи:
[15] - Г.П. Куинн, М.Дж. Ке (2002): экспериментальный дизайн и анализ данных для биологов, издательство Кембриджского университета.
[16] - MJ Crawley (2002): Статистические вычисления: введение в анализ данных с использованием S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): модели со смешанными эффектами в S и S-PLUS, Springer.
[49] - Ф. Вайда, С. Бланчард (2005): Условная информация Акаике для моделей со смешанными эффектами. Биометрика, 92, с. 351–370.
[50] - А. Гельман, Дж. Хилл (2006): анализ данных с использованием регрессионных и многоуровневых / иерархических моделей, издательство Кембриджского университета.
[64] - Н.Дж. Готелли, А.М. Эллисон (2004): учебник по экологической статистике, Sinauer Associates.
[65] - Ф.Дж. Харрелл (2001): Стратегии регрессионного моделирования, Springer.
[66] - Дж. К. Линдси (1997): Применение обобщенных линейных моделей, Springer.
[67] - W. Venables, BD Ripley (2002): Современная прикладная статистика с S, Springer.
glm.diag.plots
говорит , что это из-за остаточного отклонения от натянутого ножа (я подозреваю, что различие важно). Кроме того, я собираю, у вас есть данные подсчета ; Вы можете сосредоточиться на этом факте. Например, предполагается, что отсчеты (в некотором смысле) гетероскедастичны. Диагностические графики для регрессии подсчета должны быть полезны для вас (хотя это не относится к аспекту смешанных эффектов).