Я немного запутался в предположениях о линейной регрессии.
До сих пор я проверял:
- все объясняющие переменные линейно коррелировали с переменной отклика. (Это было так)
- была какая-то коллинеарность среди объясняющих переменных. (была небольшая коллинеарность).
- расстояния Кука точек данных моей модели ниже 1 (в этом случае все расстояния ниже 0,4, поэтому нет точек влияния).
- остатки обычно распределяются. (это может быть не так)
Но тогда я прочитал следующее:
Нарушения нормальности часто возникают либо потому, что (а) распределения зависимых и / или независимых переменных сами по себе существенно ненормальны, и / или (б) предположение о линейности нарушается.
Вопрос 1 Это звучит так, как будто независимые и зависимые переменные должны быть нормально распределены, но, насколько я знаю, это не так. Моя зависимая переменная, а также одна из моих независимых переменных обычно не распределены. Должны ли они быть?
Вопрос 2 Мой QQнормальный график остатков выглядит следующим образом:
Это немного отличается от нормального распределения и shapiro.test
также отвергает нулевую гипотезу, что остатки от нормального распределения:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Остатки от подгоночных значений выглядят так:
Что я могу сделать, если мои остатки не распределяются нормально? Значит ли это, что линейная модель совершенно бесполезна?