Это хороший вопрос, потому что «разные величины» не являются чем-то вроде объяснения.
Есть две важные причины, по которым следует с осторожностью использовать для сравнения этих моделей: он слишком грубый (он на самом деле не оценивает качество соответствия ) и будет неподходящим по крайней мере для одной из моделей. Этот ответ касается второй проблемы.R2
Теоретическое лечение
сравнивает дисперсию остатков модели с дисперсией ответов. Дисперсия - среднеквадратичное аддитивное отклонение от подгонки. Таким образом, мы можем понимать R 2 как сравнение двух моделей ответа y . R2R2y
Модель «база» является
yi=μ+δi(1)
где - параметр (теоретический средний отклик), а δ i - независимые случайные «ошибки», каждая из которых имеет нулевое среднее значение и общую дисперсию τ 2 .μδiτ2
Модель линейной регрессии вводит векторы качестве объясняющих переменных:xi
yi=β0+xiβ+εi.(2)
Число и вектор β являются параметрами (точка пересечения и «уклоны»). Ε я снова независимые случайные ошибки, каждый с нулевым средним и дисперсией общей сг 2 .β0βεiσ2
оценивает уменьшение дисперсии, т 2 - σ 2 ,сравнению с исходной дисперсией т 2 .R2τ2−σ2τ2
Когда вы берете логарифмы и используете наименьшие квадраты, чтобы соответствовать модели , вы неявно сравниваете отношения формы
log(yi)=ν+ζi(1a)
к одной из форм
log(yi)=γ0+xiγ+ηi.(2a)
(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Термины ошибки теперь умножают базовые отношенияexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
xi(2)σ2
Обычно только один из этих наборов моделей может быть разумным описанием данных. Применение второго набора и ( 2 а )(1a)(2a)(1)(2)R2R2
Анализ
R2xyεiηi
Такая модель (которая обычно встречается) представляет собой метод наименьших квадратов, соответствующий экспоненциальному отношению,
yi=exp(α0+xiα)+θi.(3)
yx(2a)θi(2)R2xy
(3)300xi1.01.6(x,y)(x,log(y))
R20.700.56R2R20.70
log(y)(3)