Какая диагностика может подтвердить использование определенного семейства GLM?


19

Это кажется таким элементарным, но я всегда застреваю на этом этапе ...

Большинство данных, с которыми я имею дело, являются ненормальными, и большинство анализов основано на структуре GLM. Для моего текущего анализа у меня есть переменная ответа, которая является "скоростью ходьбы" (метры в минуту). Мне легко определить, что я не могу использовать OLS, но тогда у меня есть большая неуверенность в решении, какая семья (Гамма, Вейбулл и т. Д.) Является подходящей!

Я использую Stata и смотрю на диагностику как остатки и гетероскедастичность, остатки против подгоночных значений и т. Д.

Я знаю, что данные подсчета могут принимать форму коэффициента (например, коэффициентов заболеваемости) и использовать гамму (аналог перерассеянных дискретных отрицательных биномиальных моделей), но просто хотел бы, чтобы «курящий пистолет» сказал ДА, ВЫ ИМЕЕТЕ ПРАВО СЕМЬЯ. Является ли рассмотрение стандартизированных остатков в сравнении с установленными значениями единственным и лучшим способом сделать это? Я хотел бы использовать смешанную модель для учета некоторой иерархии в данных, но сначала нужно разобраться, какое семейство лучше всего описывает мою переменную ответа.

Любая помощь приветствуется. Язык Stata особенно ценится!


4
« Я хотел бы, чтобы« курящий пистолет »сказал ДА, У ВАС ЕСТЬ ПРАВАЯ СЕМЬЯ » - ничего вам это не скажет. Лучшее, на что вы можете надеяться, это семья, в которой нет ничего плохого. Существует много способов выбора семейства распределений, но в общем случае оно предполагает сочетание априорных или теоретических соображений и указаний из самих данных.
Glen_b

Ответы:


14

У меня есть несколько советов:

(1) То, как остатки должны сравниваться с подгонками, не всегда так очевидно, поэтому полезно ознакомиться с диагностикой для конкретных моделей. Например, в моделях логистической регрессии статистика Хосмера-Лемешоу используется для оценки степени соответствия; значения кредитного плеча, как правило, невелики, если предполагаемые шансы очень велики, очень малы или примерно равны; & скоро.

(2) Иногда одно семейство моделей можно рассматривать как особый случай другого, поэтому вы можете использовать проверку гипотезы для параметра, чтобы помочь вам выбрать. Экспоненциальный против Вейбулла, например.

(3) Информационный критерий Акаике полезен при выборе между различными моделями, который включает выбор между различными семействами.

(4) Теоретические / эмпирические знания о том, что вы моделируете, сужают область правдоподобных моделей.

Но нет автоматического способа найти «правильную» семью; реальные данные могут поступать из дистрибутивов настолько сложных, насколько вам нравится, а сложность моделей, которые стоит попытаться подогнать, возрастает с увеличением количества имеющихся у вас данных. Это неотъемлемая часть изречения Box о том, что ни одна из моделей не соответствует действительности, но некоторые из них полезны.

Комментарий Re @ gung: кажется, что обычно используемый тест Хосмера-Лемешоу (а) удивительно чувствителен к выбору бинов, и (б), как правило, менее эффективен, чем некоторые другие тесты против некоторых соответствующих классов альтернативных гипотез. Это не умаляет точку (1): это также хорошо, чтобы быть в курсе.


Благодарность! Ваши предложения являются краткими и точными. Я ограничен в семьях, которые я могу использовать из-за структуры моей переменной ответа (положительная, непрерывная, но сильно искаженная). Среди экспоненциальной семьи кажется, что гамма - действительно единственный вариант. В то же время я нашел несколько полезных инструментов от NJ Cox, как показано в Stata Jounal 5 (2): 259-273 - gammafit (оценивает параметры формы и масштаба), а dpplot позволяет наложить график вероятности плотности и мою переменную отклика (может быть сделано со многими дистрибутивами и позволяет мне сопоставить лучшую семью с моими данными). Спасибо и за другие suggs!
RLang

1
Обратите внимание, что тест Hosmer-Lemeshow GoF, как было показано, зависит от используемого биннинга / ненадежен.
gung - Восстановить Монику

@Gung, это явно зависит от используемого биннинга - не идеально, но не уверен, что это большая проблема, если только вы не начнете возиться с биннингом, пытаясь добиться желаемого результата. Как это ненадежно и какие другие тесты лучше?
Scortchi - Восстановить Монику


1
Вы правы, что «инвалид» слишком силен; Я сказал только «ненадежный», а Харрелл использует «устаревший».
gung - Восстановить Монику

8

Вы можете найти его интересно читать виньетку (вводное руководство) для пакета R fitdistrplus. Я признаю, что вы предпочитаете работать в Stata, но я думаю, что эта виньетка будет достаточно очевидна, чтобы вы могли получить представление о процессе выведения распределительных семейств из данных. Вероятно, вы сможете реализовать некоторые идеи в Stata через собственный код. В частности, я думаю, что граф Каллена и Фрея, если он / может быть реализован в Stata, может быть полезен для вас.


Я снова вернулся к этой проблеме и переключился на R, и в качестве руководства я использую Zuur и Ieno. По-прежнему много проблем, но в целом я думаю, что с помощью varIdent моя диагностика модели выглядит так, как будто она имеет «незначительную неоднородность». Построение остатков по отношению к подгонке выглядит хорошо, при сопоставлении по каждому ковариате вы получите несколько забавных результатов для одной из моих переменных модели (высота) - в основном функция небольшого размера выборки на большой высоте. Спасибо за ваш комментарий на fitdistrplus. Теперь, когда я использую R и Rstudio (очень нравится!), Это будет удобно!
RLang

1
Ссылка не работает. Это руководство по введению, о котором вы говорили? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf Или это было так: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

Последняя ссылка, похоже, является другой версией виньетки, на которую я ссылался.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.