Что объясняет добавленный график переменных (график частичной регрессии) в множественной регрессии?


18

У меня есть модель набора данных Movies, и я использовал регрессию:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Который дал вывод:

введите описание изображения здесь

Теперь я попытался сработать что-то под названием «График добавленной переменной» в первый раз и получил следующий вывод:

car::avPlots(model, id.n=2, id.cex=0.7)

Добавлен график переменных

Проблема в том, что я пытался понять добавленную переменную, используя Google, но я не мог понять ее глубину, видя график, я понял, что это своего рода представление перекоса, основанное на каждой входной переменной, связанной с выводом.

Могу ли я получить немного больше информации, например, как это оправдывает нормализацию данных?


4
@Silverfish дала хороший ответ на ваш вопрос. На небольшой детали того, что делать с вашим конкретным набором данных, линейная модель выглядит очень плохой идеей. Голосование является явно искаженной неотрицательной переменной, поэтому указывается что-то вроде модели Пуассона. См., Например, blog.stata.com/tag/poisson-regression. Обратите внимание, что такая модель не дает вам предположения о том, что предельное распределение ответа является точно пуассоновским, так же как стандартная линейная модель не обязывает вас постулировать предельную нормальность.
Ник Кокс

2
Один из способов увидеть, что линейная модель работает плохо, - заметить, что она предсказывает отрицательные значения для значительной части случаев. Смотрите область слева от подогнанного на первом остаточном участке. знак равно0
Ник Кокс

Спасибо Ник Кокс, здесь я обнаружил, что существует сильно искаженная неотрицательная природа, я должен рассмотреть модель Пуассона, поэтому есть ли какая-либо ссылка, которая дает мне правильное представление о том, какую модель использовать в каком сценарии на основе набора данных, и я попытался использовать Полиномиальная регрессия для моего набора данных, будет ли это правильный выбор здесь ...
Абхишек Чоудхари

1
Я уже дал ссылку, которая в свою очередь дает дальнейшие ссылки. Извините, но я не понимаю вторую половину вашего вопроса со ссылкой на "сценарий, основанный на наборе данных" и "полиномиальная регрессия". Я подозреваю, что вам нужно задать новый вопрос с гораздо более подробной информацией.
Ник Кокс

Какой пакет вы установили, чтобы R распознал функцию avPlots?
Иса

Ответы:


36

Для иллюстрации я возьму менее сложную регрессионную модель Y=β1+β2X2+β3X3+ϵ которой переменные предиктора X2 и X3 могут быть коррелированы. Скажем, наклоны β2 и β3 оба положительны, поэтому мы можем сказать, что (i) Y увеличивается с увеличением X2 , если X3 поддерживается постоянным, поскольку β2 положительно; (ii) Yувеличивается с увеличением X3 , если X2 поддерживается постоянным, поскольку β3 положительно.

Обратите внимание, что важно интерпретировать множественные коэффициенты регрессии, учитывая, что происходит, когда другие переменные остаются постоянными («при ​​прочих равных условиях»). Предположим, что я просто регрессировал Y против X2 с помощью модели Y=β1+β2X2+ϵ . Моя оценка для коэффициента наклона β2 , который измеряет влияние на Y увеличения на единицу в X2 без удержания X3постоянная, может отличаться от моей оценки β2 от множественной регрессии, которая также измеряет влияние на Y увеличения X2 на одну единицу , но оно действительно сохраняет X3 постоянным. Проблема с моей оценкой β2^ состоит в том, что она страдает от смещения без переменной, если X2 и X3 коррелированы.

Чтобы понять почему, представьте, что X2 и X3 имеют отрицательную корреляцию. Теперь, когда я увеличиваю X2 на одну единицу, я знаю, что среднее значение Y должно увеличиться, поскольку β2>0 . Но , как X2 увеличивается, если мы не будем держать X3 константу , то X3 имеет тенденцию к снижению, а с β3>0 это будет иметь тенденцию к сокращению среднего значения Y . Таким образом, общий эффект увеличения X2 на одну единицу будет меньше, если я позволю X3 варьировать также, следовательноβ2<β2 . Вещи становятся хужетем сильнееX2 иX3 коррелируют, и тем больше эффектX3 черезβ3 - в очень серьезном случае мы можем даже найтиβ2<0 , даже если мы знаемчто, при прочих равных условиях,X2 положительно влияет наY !

Надеюсь, теперь вы можете понять, почему построение графика Y против X2 было бы плохим способом визуализации отношений между Y и X2 в вашей модели. В моем примере ваш взгляд будет обращен к линии наилучшего соответствия с наклоном β2^ , которая не отражает β2^ из вашей регрессионной модели. В худшем случае ваша модель может предсказать, что Y увеличивается с увеличением X2 (с другими постоянными переменными), и все же точки на графике показывают, что Y уменьшается с увеличением X2 .

Проблема в том, что в простом графике Y против X2 другие переменные не являются постоянными. Это важнейшее понимание преимущества добавленного графика зависимости (также называемого графиком частичной регрессии) - он использует теорему Фриша-Во-Ловелла, чтобы «частично исключить» влияние других предикторов. Горизонтальные и вертикальные оси на графике, пожалуй, легче всего понять * как « X2 после учета других предикторов» и « Y после учета других предикторов». Теперь вы можете посмотреть на отношения между Y и X2 только все другие предикторы были учтены, Например, наклон, который вы видите на каждом графике, теперь отражает коэффициенты частичной регрессии из вашей исходной модели множественной регрессии.

Значительная часть значения добавленной переменной отображается на этапе диагностики регрессии, тем более что остатки в добавленной переменной представляют собой именно остатки от исходной множественной регрессии. Это означает, что выбросы и гетероскедастичность можно идентифицировать аналогично взгляду на график простой, а не множественной регрессионной модели. Также можно увидеть влиятельные точки - это полезно при множественной регрессии, поскольку некоторые влиятельные точки неочевидны в исходных данных, прежде чем принять во внимание другие переменные. В моем примере умеренно большое значение X2 может показаться неуместным в таблице данных, но если значение X3 велико, несмотря на X2 и X3 будучи отрицательно коррелированным, то комбинация встречается редко. «Учет других предикторов», этозначениеX2 необычно велико и будет выделяться на графике добавленной переменной.

технической точки зрения они были бы остатками от запуска двух других множественных регрессий: остатки от регрессииY против всех предикторов, кромеX2 идут по вертикальной оси, в то время как остатки от регрессииX2 против всех других предикторов идут по горизонтальной оси. Это действительно то, о чемговорят вамлегенды «Y дано другим» и «X2 дано другим». Поскольку средний остаток от обеих этих регрессий равен нулю, средняя точка (X2 заданная другими,Yдля других) просто будет (0, 0), что объясняет, почему линия регрессии в добавленном графике переменных всегда проходит через начало координат. Но я часто нахожу, что упоминание осей - это просто остатки от других регрессий, сбивает с толку людей (возможно, неудивительно, поскольку мы сейчас говорим о четырех разных регрессиях!), Поэтому я постарался не останавливаться на этом вопросе. Постигайте их как « X2 дано другим» и « Y дано другим», и у вас все будет хорошо.


Не знаете, как это спросить, но можно ли что-нибудь сказать о тенденциях, наблюдаемых на графиках? Например, добротность соответствия каждого тренда связана с тем, насколько независимы каждый из предикторов, или что-то в этом роде?
naught101

3
Существует ли метод для перевода единиц остатка по горизонтальной и вертикальной осям в единицы базовых переменных?
Николай Г

Это такой отличный ответ. Но есть ли опечатка в вашем первом абзаце (переменные предиктора)? Должны ли они быть X2 и X3?
детально

@ Спасибо Спасибо, изменилось!
Серебряная

Silverfish, вы знаете ответ на вопрос @NicholasG? Есть ли способ сделать остатки интерпретируемыми в единицах X-переменной?
змеином

-1

Есть ли что-нибудь, что действительно можно сказать о тенденциях, наблюдаемых на графиках?

Конечно, их наклоны представляют собой коэффициенты регрессии из исходной модели (коэффициенты частичной регрессии, все остальные предикторы остаются постоянными)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.