1) Термин регрессия происходит от того факта, что в обычной простой линейной регрессионной модели:
y=α+βx+ϵ
yxy^y¯Иксx¯
|Y^-у¯| /sY< | х -x¯| /sИкс
Например, если мы используем фрейм данных BOD, встроенный в R, то:
fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE
Для доказательства см .: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Термин on происходит от того факта, что подобранные значения представляют собой проекцию выходной переменной на подпространство, охватываемое переменными предиктора (включая точку пересечения ), что дополнительно объясняется во многих источниках, таких как http: //people.eecs.ku. .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .
Заметка
Что касается комментария ниже, то, что указывает комментатор, это то, что ответ уже заявляет выше в форме формулы, за исключением того, что ответ утверждает это правильно. На самом деле, из-за равенства:
( у^- у¯) = β^( х - х¯)
the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless | β| <1, Что верно, так это то, что зависимая переменная в среднем меньше стандартных отклонений from its mean than the predictor is to its as stated in the formula in the answer.
Используя данные Гальтона, к которым относится комментарий (который доступен в пакете UsingR в R), я запустил регрессию, и на самом деле наклон составляет 0,646, поэтому средний дочерний элемент был ближе к своему среднему значению, чем его родитель, но это не общий случай. Текущее использование регрессии к среднему основано на правильных общих отношениях, которые мы показали в ответе. В примере, показанном в коде R в ответе вышеbeta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.