Допущения о линейных моделях и что делать, если остатки не распределены нормально


22

Я немного запутался в предположениях о линейной регрессии.

До сих пор я проверял:

  • все объясняющие переменные линейно коррелировали с переменной отклика. (Это было так)
  • была какая-то коллинеарность среди объясняющих переменных. (была небольшая коллинеарность).
  • расстояния Кука точек данных моей модели ниже 1 (в этом случае все расстояния ниже 0,4, поэтому нет точек влияния).
  • остатки обычно распределяются. (это может быть не так)

Но тогда я прочитал следующее:

Нарушения нормальности часто возникают либо потому, что (а) распределения зависимых и / или независимых переменных сами по себе существенно ненормальны, и / или (б) предположение о линейности нарушается.

Вопрос 1 Это звучит так, как будто независимые и зависимые переменные должны быть нормально распределены, но, насколько я знаю, это не так. Моя зависимая переменная, а также одна из моих независимых переменных обычно не распределены. Должны ли они быть?

Вопрос 2 Мой QQнормальный график остатков выглядит следующим образом:

проверка нормальности остатков

Это немного отличается от нормального распределения и shapiro.testтакже отвергает нулевую гипотезу, что остатки от нормального распределения:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Остатки от подгоночных значений выглядят так:

остатки против установлены

Что я могу сделать, если мои остатки не распределяются нормально? Значит ли это, что линейная модель совершенно бесполезна?


3
Ваше отношение остатков к построенному графику предполагает, что ваша зависимая переменная имеет нижнюю границу. Это может привести к появлению шаблонов, которые вы видите. Это может дать вам указания на альтернативные модели, которые вы могли бы рассмотреть.
Мартен Буис

Ответы:


25

Прежде всего, я бы взял себе копию этой классической и доступной статьи и прочел ее: Anscombe FJ. (1973) Графики в статистическом анализе . Американский статистик . 27: 17-21.

На ваши вопросы:

Ответ 1: ни зависимая, ни независимая переменная не должны быть нормально распределены. На самом деле они могут иметь все виды циклических распределений. Нормальность предположение относится к распределению ошибок ( YiY^i ).

Ответ 2: Вы на самом деле спрашиваете о двух отдельных допущениях регрессии обычных наименьших квадратов (OLS):

  1. YXy=a+bxaybYXYXXYX+X2YX+max(Xθ,0)θYX

  2. Другим является предположение о нормально распределенных остатках. Иногда можно сойти с рук с ненормальными остатками в контексте OLS; см., например, Lumley T, Emerson S. (2002) Значение допущения нормальности в больших наборах данных общественного здравоохранения . Ежегодный обзор общественного здравоохранения . 23: 151-69. Иногда это невозможно (опять же, см. Статью Anscombe).

Тем не менее, я бы рекомендовал думать о допущениях в OLS не столько как о желательных свойствах ваших данных, сколько об интересных отправных точках для описания природы. В конце концов, большая часть того, что нас волнует в мире, более интересна, чемy


2
Благодарность! В слайдах курса по статистике говорится, что если допущения не выполняются, вы можете попытаться преобразовать Y или преобразовать объясняющие переменные. Когда я преобразую Y, выполнив, например, lm (Y ^ 0.3 ~ + X1 + X2 + ...), мои остатки станут нормально распределенными. Это действительная вещь?
Стефан,

@ Стефан Да! Преобразование ответа часто - хорошая вещь, logи простые преобразования власти распространены.
Грегор

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis: Почему на этих страницах написано, что переменные должны быть нормально распределены? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticsssolutions.com/…
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

Ваши первые проблемы

  • несмотря на ваши заверения, остаточный график показывает, что условный ожидаемый отклик не является линейным по подобранным значениям; модель для среднего неверна.

  • у вас нет постоянной дисперсии. Модель для отклонения неверна.

Вы даже не можете оценить нормальность с этими проблемами там.


Пожалуйста, опишите, как вы пришли к выводу о линейности, посмотрев на графики? Я понимаю, что предположение о гомоскедастичности здесь не выполняется.
Доктор Ниша Арора

y^y^=30060<00303060>60), нарисуйте лучшую оценку прямой линии. Для меня средние два почти совпадают, поэтому я объединил их линии, давая что-то вроде этого
Glen_b -Reinstate Monica

В средней половине почти все остатки отрицательны, во внешних частях почти все остатки положительны. Это не то, как выглядят случайные остатки.
Glen_b

Спасибо, @Glen_b. После долгого перерыва я пересматриваю свои концепции, поэтому не могу визуализировать с самого начала.
Доктор Ниша Арора

Хотя здесь не так много, я ожидаю, что исходные данные неотрицательны, и более подходящим выбором будет либо обобщенная линейная модель (возможно, гамма с лог-связью), либо преобразование (вероятно, лог-преобразование). ,
Glen_b

3

Я бы не сказал, что линейная модель совершенно бесполезна. Однако это означает, что ваша модель не правильно / полностью не объясняет ваши данные. Есть часть, где вы должны решить, является ли модель «достаточно хорошей» или нет.

Что касается вашего первого вопроса, я не думаю, что модель линейной регрессии предполагает, что ваши зависимые и независимые переменные должны быть нормальными. Тем не менее, есть предположение о нормальности остатков.

Для вашего второго вопроса, есть две разные вещи, которые вы могли бы рассмотреть:

  1. Проверьте различные виды моделей. Другая модель может быть лучше для объяснения ваших данных (например, нелинейная регрессия и т. Д.). Вам все равно придется проверить, что предположения этой «новой модели» не нарушены.
  2. Ваши данные могут не содержать достаточно ковариат (зависимых переменных), чтобы объяснить ответ (результат). В этом случае вы не можете больше ничего делать. Иногда мы можем согласиться проверить, соответствуют ли остатки другим распределениям (например, t-распределению), но, похоже, это не относится к вам.

В дополнение к вашему вопросу, я вижу, что ваш QQPlot не "нормализован". Обычно легче посмотреть на график, когда ваши остатки стандартизированы, см. Stdres .

stdres(lmobject)

Я надеюсь, что это поможет вам, может быть, кто-то еще объяснит это лучше меня.


0

В дополнение к предыдущему ответу я хотел бы добавить несколько моментов для улучшения вашей модели:

  1. Иногда ненормальность остатков указывает на наличие выбросов. Если это так, сначала обработайте выбросы.

  2. Может быть, с помощью некоторых преобразований решить цель.

  3. Кроме того, чтобы справиться с мультиколинейностью, вы можете обратиться к https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution


-1

На ваш второй вопрос

Что-то, что случилось со мной на практике, было то, что я перефразировал свой ответ многими независимыми переменными. В переоборудованной модели у меня были ненормальные остатки. Несмотря на то, что результаты подтвердили, что не было доказательств того, что некоторые коэффициенты были равны нулю (при значениях р больше 0,2). Таким образом, во второй модели, отбрасывая переменные, следуя процедуре обратного выбора, я получил нормальные остатки, которые были проверены как графически с помощью qqplot, так и путем проверки гипотезы с помощью теста Шапиро-Уилка. Проверьте, может ли это быть вашим случаем.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.