Почему мы говорим, что переменная результата «регрессирует» на предиктор (ы)?


16

Есть ли интуитивное объяснение этой терминологии? Почему это так, а не предсказатель (ы) регрессируют на результат?

В идеале я надеюсь, что правильное объяснение того, почему существует эта терминология, поможет студентам запомнить ее и помешать им сказать это неправильно.


1
Мы? Я не уверен, что когда-либо говорил это - и я много обсуждал регресс. Если вы знаете кого-то, кто говорит это, возможно, вы могли бы спросить их. (У меня по поводу сказал « регресс на » - но на будет звучать несколько странно для меня)
Glen_b -Reinstate Моника

Спасибо - я имел в виду «на», а не «на». Я исправил это сейчас.
user1205901 - Восстановить Монику

Ответы:


19

Я не знаю, что такое этимология «регрессии», но вот интерпретация, которую я имею в виду, когда говорю или слышу это выражение. Рассмотрим следующую фигуру из «Элемента статистического обучения » Hastie et al .:

регрессия - это проекция

По своей сути, линейная регрессия составляет ортогональную проекцию на (на) X , где y - n- мерный вектор наблюдений зависимой переменной, а X - подпространство, охватываемое векторами предиктора.yXynX

Это очень полезная интерпретация линейной регрессии.

Так как проецируется на X , то есть то , что я думаю , когда я слышу , что у является «регресс на» X . С этой точки зрения не имеет смысла говорить, что X регрессирует на y или что y регрессирует «против» или «с» XyXyXXyyX .

В идеале я надеюсь, что правильное объяснение того, почему существует эта терминология, поможет студентам запомнить ее и помешать им сказать это неправильно.

Как я уже сказал, я сомневаюсь, что это объяснение того, почему существует эта терминология (возможно, только почему она сохраняется?), Но я уверен, что она может помочь студентам запомнить ее.


2
+1. Зависит от студентов! Это, безусловно, правильный и плодотворный способ говорить и думать на среднем или продвинутом уровнях. Интересно, отвечает ли он за терминологию «на»? Не так давно вы могли найти регрессионные тексты практически без диаграмм, не говоря уже о строго визуальном или геометрическом подходе, хотя сейчас это совершенно стандартно, хотя я думаю, что эта терминология восходит к нескольким десятилетиям.
Ник Кокс

(+1) Единственный способ, которым я получил концепцию регрессии через мой череп, - это представить ее как проекцию на пространство столбцов C ( A )yC(A) матрицы модели, которое, я думаю, является геометрической интерпретацией, которую вы показываете. ,
Антони Пареллада

1
Это очень хорошая статистическая причина для использования терминологии. Социальные или лингвистические причины его популярности могут быть разными!
Ник Кокс

Просто чтобы быть ясно: я полностью согласен с тем, что @NickCox сказал в комментариях здесь.
говорит амеба: восстанови Монику

6

Я часто использовал и слышал этот способ говорить. Я предполагаю, что последовательность, в которой упоминается результат или ответ до того, как предикторы вытекают из соглашений в письменной форме, с использованием слов или с использованием нотации или смешивания двух, вплоть до

Y=Xβ

оставляя в стороне столь же интересный (или неинтересный!) вопрос о том, что мы называем различными видами переменных.

Но кажется одинаково обоснованным математически и статистически в первую очередь упоминать предикторы, точно так же, как многие математики сначала пишут отображения или функции с аргументами.

Что часто, возможно, определяет последовательность, которую мы используем в статистических дискуссиях, так это то, что с научной или практической точки зрения у нас обычно есть четкое представление о том, что мы пытаемся предсказать - это смертность, или доход, или урожай пшеницы, или голоса на выборах, или что-то еще. - хотя пул потенциальных или фактических предикторов может быть не таким ясным. Даже если это понятно, имеет смысл сначала упомянуть важные вещи. Что ты пытаешься сделать? Предсказать что угодно . Как ты собираешься это сделать? Используйте некоторые или все эти переменные .

У меня нет истории для «вкл», а не любое другое слово, которое подходит. Я не слышу «регресс против» или «регресс с». Здесь не может быть никакой логики, только мемы, передаваемые в учебниках, учениях и дискуссиях.

В общем, берегитесь. Рассмотрим связанный вопрос, значение «против» . Меня воспитали, чтобы сказать «график [переменная вертикальной оси] против (или против) x [переменная горизонтальной оси]», и обратное звучит для меня необычно. Тем не менее, люди со значительным опытом и знаниями имеют его наоборот. Иногда такого рода различия можно отнести к харизматичным и своеобразным учителям, которым вы подражали с тех пор, как сидели у их ног.yx


+1. Но моя личная интерпретация «регрессии на» заключается в «проекции на», см. Мой ответ. Интересно, так много людей думают об этом выражении или это только я?
говорит амеба: восстанови Монику

3

1) Термин регрессия происходит от того факта, что в обычной простой линейной регрессионной модели:

y=α+βx+ϵ

yИксy^y¯Иксx¯

|y^-Y¯|/sY<|Икс-Икс¯|/sИкс

Например, если мы используем фрейм данных BOD, встроенный в R, то:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Для доказательства см .: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Термин on происходит от того факта, что подобранные значения представляют собой проекцию выходной переменной на подпространство, охватываемое переменными предиктора (включая точку пересечения ), что дополнительно объясняется во многих источниках, таких как http: //people.eecs.ku. .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .

Заметка

Что касается комментария ниже, то, что указывает комментатор, это то, что ответ уже заявляет выше в форме формулы, за исключением того, что ответ утверждает это правильно. На самом деле, из-за равенства:

(Y^-Y¯)знак равноβ^(Икс-Икс¯)

the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless |β|<1, Что верно, так это то, что зависимая переменная в среднем меньше стандартных отклонений from its mean than the predictor is to its as stated in the formula in the answer.

Используя данные Гальтона, к которым относится комментарий (который доступен в пакете UsingR в R), я запустил регрессию, и на самом деле наклон составляет 0,646, поэтому средний дочерний элемент был ближе к своему среднему значению, чем его родитель, но это не общий случай. Текущее использование регрессии к среднему основано на правильных общих отношениях, которые мы показали в ответе. В примере, показанном в коде R в ответе вышеbeta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.


1
I'm pretty sure that's not where the term regression comes from. In an early use of the term son's height was regressed on father's height; due to mean reversion findings showed sons of tall fathers tended to regress to the mean.
PaulB

While that was true for that particular dataset that is not in general true unless you measure closeness in terms of standard deviations but that is precisely what the inequality in the answer does so perhaps you just did not recognize it. In fact the modern notion is based on the correct formulation which I have stated and not on the incorrect formulation not involving standard deviation. I have expanded on this in the Note which I have added to the end of the answer.
G. Grothendieck

0

Personally, when it comes to explaining terminology, I find the definition of the term itself always helps, especially when explaining to students. The actual definition of the word regress is:

"return to a former or less developed state".

So one way to explain I guess would be the following:

"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."

Hope that helps.


1
There is more than one "actual definition". I would suggest that in statistical science the technical definition of regression as fitting a model (by default a linear model) is now primary and the historic sense.as captured by "regress to the mean", which remains interesting and some times useful, is secondary. I don't find it helpful to think that predictors in general are "less developed states", e.g. there is no sense in which predictor rainfall is a less developed state of outcome wheat yield. Either way, I don't see how this explains the expression.
Nick Cox

Я понимаю вашу точку зрения полностью. Есть ли способ объяснить регрессию с помощью определения, которое я опубликовал? Потому что я думаю, что «менее развитые» не в том смысле, что осадки являются менее развитыми, чем урожай пшеницы, а скорее как нечто, что может частично объяснить урожай пшеницы.
EhsanF

1
Если «менее развитый» не означает «менее развитый», я не вижу, чтобы формулировка помогла вообще.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.