Следует отметить , что предположение о линейности вы имеете в виду только говорит , что условное среднее дал X я линейная функцияYiXi . Вы не можете использовать значение для проверки этого предположения.R2
Это связано с тем, что является просто квадратом корреляции между наблюдаемыми и прогнозируемыми значениями, а значение коэффициента корреляции не однозначно определяет взаимосвязь между X и Y (линейным или иным образом), и возможны оба следующих двух сценария: R2XY
Я буду обсуждать каждый по очереди:
(1) Высокий но предположение о линейности по-прежнему неверно в важном смысле:R2 хитрость здесь заключается в манипулировании фактом, что корреляция очень чувствительна к выбросам . Предположим , у вас есть предикторов , которые генерируются из распределения смеси, которое является стандартным нормальным в 99 % случаев, и точечной массы при M, других 1 %, и переменной отклика, которая равнаX1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
где и M - положительная постоянная, намного превышающая μ , например, μ = 0 , M = 10 5 . Тогда X i и Y i будут почти идеально соотнесены:Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
YiXiYiXiXi=M
R2XiYi
Yi=β0+β1Xi+εi
YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
R2
Re: Что делать, если предположение о линейности не выполнено и преобразование IV также не помогает? !!
Когда нелинейность является проблемой, может быть полезно взглянуть на графики остатков в сравнении с каждым предиктором - если есть какой-либо заметный паттерн, это может указывать на нелинейность в этом предикторе. Например, если этот график показывает «чашеобразную» связь между остатками и предиктором, это может указывать на отсутствующий квадратичный термин в этом предикторе. Другие шаблоны могут указывать на другую функциональную форму. В некоторых случаях может оказаться, что вы не пытались исправить преобразование или что истинная модель не является линейной в любой преобразованной версии переменных (хотя может быть возможно найти разумное приближение).
R2