Для решения первого вопроса рассмотрим модель
Y=X+sin(X)+ε
с iid среднего нуля и конечной дисперсии. По мере увеличения диапазона (рассматриваемого как фиксированный или случайный) становится равным 1. Тем не менее, если дисперсия мала (около 1 или меньше), данные «заметно нелинейны». На графиках .εXR2εvar(ε)=1
Между прочим, простой способ получить небольшое значение - это нарезать независимые переменные в узкие диапазоны. Регрессия (с использованием точно такой же модели ) в каждом диапазоне будет иметь низкое даже если полная регрессия, основанная на всех данных, имеет высокое . Рассмотрение этой ситуации является информативным упражнением и хорошей подготовкой ко второму вопросу.R2R2R2
Оба следующих графика используют одни и те же данные. для полной регрессии 0,86. для срезов (шириной 1/2 от -5/2 до 5/2) являются +0,16, +0,18, +0,07, +0,14, +0,08, +0,17, +0,20, +0,12, .01 , .00, чтение слева направо. Во всяком случае, совпадения улучшаются в разрезанной ситуации, потому что 10 отдельных строк могут более точно соответствовать данным в их узких диапазонах. Несмотря на для всех срезов значительно ниже полного , то ни прочности отношений, в линейности , ни действительно , любой аспект данных ( за исключением того, диапазон используется для регрессии) изменились.R2R2R2R2X
(Можно возразить, что эта процедура нарезки изменяет распределение Это правда, но тем не менее, оно соответствует наиболее распространенному использованию в моделировании с фиксированными эффектами и показывает степень, в которой говорит нам о дисперсия в ситуации со случайными эффектами. В частности, когда вынужден изменяться в пределах меньшего интервала своего естественного диапазона, обычно падает.)XR2R2XXR2
Основная проблема с заключается в том, что он зависит от слишком многих вещей (даже если они скорректированы в множественной регрессии), но особенно от дисперсии независимых переменных и дисперсии невязок. Обычно это ничего не говорит нам о «линейности» или «силе отношений» или даже о «пригодности» для сравнения последовательности моделей.R2
Большую часть времени вы можете найти лучшую статистику, чем . Для выбора модели вы можете обратиться к AIC и BIC; для выражения адекватности модели, посмотрите на дисперсию остатков. R2
Это подводит нас, наконец, ко второму вопросу . Одна ситуация, в которой может иметь какое-то применение, - это когда независимые переменные устанавливаются в стандартные значения, по существу контролируя влияние их дисперсии. Тогда действительно является прокси для дисперсии остатков, соответствующим образом стандартизированной.R21−R2