Предположения обобщенной линейной модели


14

Я сделал обобщенную линейную модель с одной переменной ответа (непрерывной / нормально распределенной) и 4 пояснительными переменными (3 из которых являются факторами, а четвертая - целым числом). Я использовал распределение ошибок по Гауссу с функцией тождественной связи. В настоящее время я проверяю, что модель удовлетворяет предположениям обобщенной линейной модели, а именно:

  1. независимость от Y
  2. правильная функция связи
  3. правильная шкала измерения объясняющих переменных
  4. нет влиятельных наблюдений

Мой вопрос: как я могу проверить, что модель удовлетворяет этим предположениям? Лучшей отправной точкой, по-видимому, является построение ответной переменной для каждой объясняющей переменной. Тем не менее, 3 из объясняющих переменных являются категориальными (с 1-4 уровнями), так что я должен искать на графиках?

Кроме того, мне нужно проверить мультиколлинеарность и взаимодействия между объясняющими переменными? Если да, то как мне сделать это с категориальными пояснительными переменными?

Ответы:


20

Я думаю, пытаясь думать об этом как обобщенной линейной модели - это излишне. То, что у вас есть, это простая старая модель регрессии. Более конкретно, поскольку у вас есть некоторые категориальные объясняющие переменные и непрерывный EV, но нет взаимодействия между ними, это также можно назвать классическим ANCOVA.

Я бы сказал, что # 3 - это не совсем то предположение, о котором вам нужно беспокоиться. Также, в этом отношении, Вы не должны действительно волноваться о # 2. Вместо этого я бы вытеснил их двумя различными предположениями:

2' . Однородность дисперсии
3 '. Нормальность остатков

Кроме того, № 4 - важная вещь для проверки, но я не думаю, что это предположение само по себе. Давайте подумаем, как можно проверить предположения.

Независимость часто «проверяется» в первую очередь, думая о том, что означают данные и как они были собраны. Кроме того, можно проверить , используя такие вещи , как бежит тест , тест Дарбина-Уотсона , или рассматривая картину автокорреляций --Вы также может посмотреть на частичных автокорреляций . (Обратите внимание, что они могут быть оценены только относительно вашего непрерывного ковариата.)

При наличии в основном категориальных объясняющих переменных однородность дисперсии можно проверить, рассчитав дисперсию на каждом уровне ваших факторов. Вычислив их, есть несколько тестов, используемых для проверки того, что они примерно одинаковы, в первую очередь тест Левена , но также тест Брауна-Форсайта . FмaИкстест, также называемый тестом Хартли, не рекомендуется; если вы хотите немного больше информации об этом, я обсуждаю это здесь . (Обратите внимание, что эти тесты могут применяться к вашим категориальным ковариатам в отличие от описанных выше.) Для непрерывного EV мне нравится просто наносить на график свои остатки по отношению к непрерывному ковариату и проверять их визуально, чтобы увидеть, распространяются ли они дальше в ту или иную сторону.

Нормальности остатков может быть оценена с помощью некоторых тестов, как Шапиро-Wilk , или тесты Колмогорова-Смирнова , но часто лучше всего оценивают визуально через Qq-сюжет . (Обратите внимание, что это предположение, как правило, наименее важно из набора; если оно не выполнено, ваши оценки бета-версии все равно будут несмещенными , но ваши значения p будут неточными.)

Есть несколько способов оценить влияние ваших индивидуальных наблюдений. Можно получить числовые значения, которые это индексируют, но мой любимый способ, если вы можете это сделать, это разорвать ваши данные. То есть вы отбрасываете каждую точку данных по очереди и заново подгоняете свою модель. Затем вы можете проверить, насколько сильно колеблются ваши бета-версии, если это наблюдение не было частью вашего набора данных. Эта мера называется dfbeta . Это требует немного программирования, но есть стандартные способы, которыми программное обеспечение часто может вычислять для вас автоматически. К ним относятся плечо и расстояние Кука .

Что касается вашего вопроса в том виде, в котором он был изначально сформулирован, то, если вы хотите узнать больше о функциях связи и обобщенной линейной модели, я обсудил это довольно подробно здесь . По сути, наиболее важной вещью, которую необходимо учитывать для выбора подходящей функции связи, является характер вашего распределения ответов; так как ты веришьY является гауссовским, идентификационная ссылка является подходящей, и вы можете просто думать об этой ситуации, используя стандартные представления о регрессионных моделях.

Что касается «правильной шкалы измерения объясняющих переменных», я полагаю, что вы имеете в виду уровни измерения Стивена (т. Е. Категориальные, порядковые, интервальные и отношения). Первое, что нужно понять, это то, что методы регрессии (в том числе GLiM) не делают предположений относительно объясняющих переменных, а способ, которым вы используете свои объясняющие переменные в своей модели, отражает ваши убеждения о них. Кроме того, я склонен думать, что уровни Стивена переоценены; для более теоретического рассмотрения этой темы, смотрите здесь .


1
Поскольку Операция включала функцию связи, я думаю, что он действительно имел в виду обобщенную линейную модель, где функция связи применяется к Y. Также я бы назвал независимость Y в качестве предположения. Я считаю более правильным предположение, что компоненты ошибок в модели независимы. Учитывая, что я думаю, все остальное, что написал Гунг, правильно.
Майкл Р. Черник

@MichaelChernick, я согласен с тобой. Я немного отредактировал свой ответ, чтобы решить эти проблемы. Дайте мне знать, если вы думаете, что это все еще требует дополнительной работы.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.