Интерпретация остаточных диагностических графиков для моделей GLM?


33

Я ищу рекомендации о том, как интерпретировать остаточные графики моделей GLM. Особенно пуассоновские, отрицательные биномиальные, биномиальные модели. Что мы можем ожидать от этих графиков, когда модели «правильные»? (например, мы ожидаем, что дисперсия будет расти по мере увеличения прогнозируемого значения при работе с моделью Пуассона)

Я знаю, что ответы зависят от моделей. Любые ссылки (или общие моменты для рассмотрения) будут полезны / оценены.

Ответы:


16

Я думаю, что это одна из самых сложных частей при проведении регрессионного анализа. Я также борюсь с большинством интерпретаций (в частности, биномиальная диагностика сумасшедшая!).

Я только что наткнулся на этот пост http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, который также связал http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

Что мне больше всего помогает, так это составить график зависимости остатков от каждого прогнозирующего параметра, включенного И не включенного в модель. Это также означает тех, кто был отброшен заранее по соображениям мультиколлинеарности. Для этого бокса отлично подходят условные диаграммы рассеяния и нормальные диаграммы рассеяния. это помогает обнаружить возможные ошибки

В "Forest Analytics with R" (серия UseR) есть несколько хороших объяснений, как интерпретировать невязки для моделей со смешанными эффектами (и glms также). Хорошо читать! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Однажды я подумал о веб-сайте, который может собирать остаточные шаблоны, по которым пользователи могут голосовать, чтобы они были «в порядке» и «не в порядке». но я так и не нашел этот сайт;)


8

Я бы предложил методы, описанные в:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Есть несколько разных идей, но они в основном сводятся к моделированию данных, когда вы знаете, каковы истинные отношения, и эти отношения основаны на вашем анализе реальных данных. Затем вы сравниваете диагностику из ваших реальных данных с диагностикой смоделированных наборов данных. vis.testФункция в пакете TeachingDemos для R реализует вариант 1 из предложений , содержащихся в документе. Прочитайте всю статью (не только мое очень краткое резюме) для лучшего понимания.


Я думаю, что это хорошее предложение для просмотра моделей, которые отклоняются от случайных в разбросе или других графиках, но это не единственная цель при просмотре остатков. Часто нас интересуют конкретные отклонения от случайных (например, гетероскедастичность, неправильно определенная нелинейность в модели, пропущенные переменные, выбросы или высокие значения левереджа и т. Д.). Сравнения со случайно сгенерированными данными не помогают определить, почему остатки не случайны и не являются средством защиты.
Энди Ш

@ AndyW, я думаю, что мы по-разному интерпретируем исходный вопрос. Мой ответ заставляет исследователя начать с того, чтобы сообщить им, есть ли что-то большее, что им нужно искать, или остаточный сюжет является разумным. Что делать, если это не выглядит разумным, - это следующий шаг, который выходит за рамки моего ответа (хотя некоторые дополнительные предположения можно было бы сравнить с использованием нового набора симуляций).
Грег Сноу

5

Этот вопрос довольно старый, но я подумал, что было бы полезно добавить, что с недавнего времени вы можете использовать пакет DHARMa R для преобразования остатков любого GL (M) M в стандартизированное пространство. После этого вы можете визуально оценить / проверить остаточные проблемы, такие как отклонения от распределения, остаточная зависимость от предиктора, гетероскедастичность или автокорреляция обычным способом. Смотрите виньетка пакета для проработанных примеров, а также другие вопросы по резюме здесь и здесь .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.