Как можно получить хорошую модель линейной регрессии, если нет существенной корреляции между выходом и предикторами?


17

Я обучил модели линейной регрессии, используя набор переменных / функций. И модель имеет хорошие показатели. Однако я понял, что нет переменной с хорошей корреляцией с прогнозируемой переменной. Как это возможно?


3
Это отличные ответы, но в вопросе отсутствует много деталей, ответы на которые мы стремимся заполнить. Самый большой вопрос, на мой взгляд, это то, что вы подразумеваете под «хорошей корреляцией».
ГВС

Ответы:


35

Пара переменных может показывать высокую частичную корреляцию (корреляцию, учитывающую влияние других переменных), но низкую или даже нулевую маржинальную корреляцию (попарная корреляция).

Это означает, что попарная корреляция между откликом y и некоторым предиктором x может иметь небольшое значение при идентификации подходящих переменных с (линейным) «прогнозирующим» значением среди совокупности других переменных.

Рассмотрим следующие данные:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Корреляция между y и x равна . Если я рисую линию наименьших квадратов, она совершенно горизонтальная и R 20R2 будет .0

Но когда вы добавляете новую переменную g, которая указывает, из какой группы пришли наблюдения, x становится чрезвычайно информативным:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

R2 линейной регрессионной модели с как х и г переменных в нем будет 1.

График зависимости y от x, показывающий отсутствие парных линейных отношений, но с цветом, обозначающим группу;  в каждой группе отношения идеальны

Подобные вещи могут происходить с каждой из переменных в модели - все они имеют небольшую попарную корреляцию с откликом, но модель, в которой они все присутствуют, очень хорошо предсказывает отклик.

Дополнительное чтение:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


Может ли такое поведение происходить в истинно линейной модели? Здесь соотношение между цветом (g = 0/1) и откликом y представляется нелинейным. Однако, что может случиться так, что модели без g может быть (произвольно?) Ниже, чем R 2 модели с g . R2gR2g
Вимал

Jeez, я бы посмотрел на модель близко :) . Поцарапайте этот вопрос! y=x41g
Вимал

Это была действительно модель, с помощью которой был создан ответ; но вы можете сразу увидеть, что он линейный, просто представив, что вы поднимаете синие точки на одну произвольную единицу (по направлению к вам от поверхности экрана вдоль нового направления оси «g») и видите, что плоскость проходит через шесть точек.
Glen_b

1
В регрессии X-переменные обусловлены и часто могут контролироваться, поэтому «независимость» обычно не то, что нужно искать. За пределами разработанных экспериментов независимые предикторы практически никогда не встречаются, и, если вы действительно спроектировали эксперименты, предикторы не являются случайными переменными, поэтому «независимость» (в статистическом смысле) - это не то, на что вы будете смотреть - скорее что-то как взаимная ортогональность, предположительно. ... ctd
Восстановить Монику

1
ctd ... Если вы действительно имеете в виду (взаимную / p-вариацию) статистическую независимость всех предикторов, то вы не получите точно нулевые коэффициенты для одномерных регрессий таким образом, но вам также не нужно полное разделение, как в примере выше ,
Glen_b

2

Я предполагаю, что вы тренируете модель множественной регрессии, в которой у вас есть несколько независимых переменных , X 2X1X2 , ..., регрессирующих на Y. Простой ответ здесь - это попарная корреляция, подобная работе недостаточно определенной регрессионной модели. Таким образом, вы пропустили важные переменные.

Более конкретно, когда вы заявляете, что «нет переменной с хорошей корреляцией с прогнозируемой переменной», это звучит так, как будто вы проверяете попарную корреляцию между каждой независимой переменной с зависимой переменной, Y. Это возможно, когда вносит важный новая информация и помогает прояснить противоречие между X 1 и Y. Однако при таком смешении мы можем не увидеть линейную попарную корреляцию между XX2X1 и Y. Вы также можете проверить связь между частичной корреляцией ρ x 1 , у | х 2 и множественная регрессия у = β 1X1ρx1,y|x2 . Множественная регрессия имеет более тесную связь с частичной корреляцией, чем парная корреляция, ρ x 1 , y .y=β1X1+β2X2+ϵρx1,y


0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.