Является ли предположение о линейности в линейной регрессии просто определением


10

Я пересматриваю линейную регрессию.

Учебник Грина гласит:

введите описание изображения здесь введите описание изображения здесь

Теперь, конечно, будут другие предположения о модели линейной регрессии, такие как . Это предположение в сочетании с предположением о линейности (которое в действительности определяет ) создает структуру модели.ϵE(ϵ|X)=0ϵ

Однако само по себе предположение о линейности не создает никакой структуры в нашей модели, поскольку может быть совершенно произвольным. Для любых переменных , независимо от отношения между ними, мы можем определить так, чтобы выполнялось предположение о линейности. Таким образом, линейность «предположение» на самом деле следует называть определение из , а не предположение.X , y ϵ ϵϵX,yϵϵ

Поэтому мне интересно :

  1. Грин неаккуратен? Должен ли он на самом деле написать: ? Это «предположение о линейности», которое фактически создает структуру в модели.E(y|X)=Xβ

  2. Или я должен согласиться с тем, что предположение о линейности не накладывает структуру на модель, а только определяет , где другие предположения будут использовать это определение для наложения структуры на модель?ϵϵϵ


Изменить : так как, кажется, есть некоторая путаница вокруг других предположений, позвольте мне добавить полный набор предположений здесь:

введите описание изображения здесь

Это из Грин, Эконометрический анализ, 7-е изд. п. 16.


4
Это проницательные наблюдения (+1). Хотя, честно говоря, я полагаю, что большинство (если не все) авторы работают в рамках, в которой само значение аддитивной ошибки, такой как включает предположение, что ее распределение сосредоточено в . 0ϵ0
whuber

2
@whuber, я добавил весь набор предположений. посмотрите на А3. A3 явно указывает, что он центрирован на 0, что подразумевает, что Грин не принимает это в A1, что оставляет меня под вопросом, имеет ли A1 какое-либо логическое содержание, кроме определения . ϵ
user56834

2
Предполагаемое значение списка предположений заключается в том, что они собраны вместе, а не по отдельности. Это не демонстрирует никакой «неряшливости».
whuber

2
@ AdamO, мне кажется, слово «правильный» не имеет точного значения. Я пытаюсь более точно понять это. Мне кажется, что наиболее точная формулировка всего этого заключается в том, что предположение 1 следует называть «определением », и тогда все имеет смысл. Или я что-то упускаю, поэтому я и задал этот вопрос. К сожалению, пока я не видел прямого ответа на этот вопросϵ
user56834

2
@ Programmer2134 вы получаете неточные ответы, потому что задаете неточный вопрос. Как вы говорите, нельзя «придавать структуру модели». Если используется неправильная средняя модель ( ), то ответ характеризуется как . а остатки принимаются как сумма смещения и ошибки. Y = f ( x ) + смещение + ошибкаf(x)Y=f(x)+bias+error
AdamO

Ответы:


8
  1. Грин неаккуратен? Должен ли он на самом деле написать: ? Это «предположение о линейности», которое фактически создает структуру в модели.E(y|X)=Xβ

В каком-то смысле да и нет. С одной стороны, да, учитывая современные исследования причинно- следственных связей, он небрежен, но, как и большинство учебников по эконометрике, в том смысле, что в них не проводится четкое различие между причинно-следственными и наблюдательными величинами, что приводит к распространенным заблуждениям, подобным этому самому вопросу. Но, с другой стороны, нет, это предположение не является небрежным в том смысле, что оно действительно отличается от простого предположения .E(y|X)=Xβ

Суть дела здесь заключается в разнице между условным ожиданием и структурным (причинным) уравнением , а также его структурным (причинным) ожиданиемy E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Предположение о линейности в Грин является структурным предположением. Давайте посмотрим на простой пример. Представьте себе структурное уравнение:

y=βx+γx2+ϵ

Теперь пусть . Тогда бы мы имели:E[ϵ|x]=δxγx2

E[y|x]=βx

где . Более того, мы можем написать y = β x + ϵ ′, и у нас будет E [ ϵ | х ] = 0 . Это показывает, что мы можем иметь правильно заданное линейное условное ожидание E [ y | х ], который по определению будет иметь ортогональное возмущение, но структурное уравнение будет нелинейным.β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. ϵϵ

ϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X]

ϵX,yϵ

yxϵβ

Примечание

Стоит отметить, что большинство учебников по эконометрике сбивают с толку, когда речь идет о разнице между регрессией и структурными уравнениями и их значением. Это было задокументировано в последнее время. Вы можете проверить статью Чена и Перла здесь, а также расширенный опрос Криса Олда . Грин - одна из исследованных книг.


ϵxxyxy ϵ

1
yXϵ:=yE[Y|do(X)]=yXβϵXϵX

@ Programmer2134, кстати, ваши опасения на правильном пути, я думаю, что учебник Перла по каузальному выводу может быть интересным компаньоном для Грина!
Карлос Синелли

Кстати, я начал читать «Причинность: модели, рассуждения и умозаключения» Жемчуга некоторое время назад. Я думал, что это было очень интересно, но это было несколько абстрактно для меня. Я не вышел за пределы главы 2. Как вы думаете, «учебник по причинно-следственной связи» будет более подходящим? (т.е. вводить понятия более интуитивно).
user56834

1
E(Y|x)

0

отредактировано после комментариев OP и Мэтью Друри

Чтобы ответить на этот вопрос, я предполагаю, что Грин и OP имеют в виду следующее определение линейности: Линейность означает, что для каждого увеличения единицы этого предиктора результат увеличивается на бета ( ), где бы он ни находился в диапазоне возможных значений предиктора это увеличение на одну единицу происходит. Т.е. функция есть а не, например, или . Кроме того, это предположение сфокусировано на бета-версиях и, таким образом, относится к предикторам (или независимым переменным). y = a + b x y = a + b x 2 y = a + s i n ( x )βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

Ожидание невязок, обусловленное моделью является чем-то другим. Да, это правда, что математика за линейной регрессией определяет / пытается определить . Однако, это обычно устанавливается во всем диапазоне подогнанных / предсказанных значений для . Если вы посмотрите на конкретные части линейного предсказателя и прогнозируемым значением , можно заметить гетероскедастичности (областей , в которых изменение больше , чем в других местах), а также области , где . Причиной этого может быть нелинейная связь между и , но это не единственная причина гетероскедастичности илиE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 может произойти (см., например, отсутствие предиктора).

Из комментариев: OP заявляет, что «предположение о линейности никак не ограничивает модель, учитывая, что эпсилон произвольный и может быть любой функцией XX вообще», на что я согласен. Я думаю, что это становится ясным благодаря тому, что линейные регрессии могут соответствовать любым данным независимо от того, нарушено ли предположение о линейности или нет. Я размышляю здесь, но это может быть причиной, по которой Грин решил оставить ошибку в формуле - сохранив на потом - чтобы обозначить это при допущении линейности (а не ожидаемой ) может быть определено на основе но сохраняет некоторую ошибку , независимо от того, какие значенияϵE(ϵ|X)=0yyXϵϵпринимает. Я могу только надеяться, что позже он подтвердит актуальность .E(ϵ|X)=0

Короче говоря (по общему признанию, не полностью читая книгу Грина и проверяя его аргументацию):

  1. Грин, вероятно, ссылается на то, что бета-версии являются постоянными для всего диапазона предиктора (акцент должен быть сделан на бета в или ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. Предположение о линейности накладывает некоторую структуру на модель. Однако следует отметить, что преобразования или дополнения, такие как сплайны перед моделированием, могут привести нелинейные ассоциации в соответствие с линейной структурой регрессии.

3
Это полезно, но призыв к преемственности не нужен ни в каком смысле. Механизм работает так же, если основан только на предикторах. X(0,1)
Ник Кокс

1
Вы написали но я думаю, что вы имели в виду ,. f(y)f(x)
Ник Кокс

@NickCox Я редактировал эти пункты.
IWS

1
Что вы подразумеваете под нормальностью? Если вы имеете в виду нормальность, то это неверно, потому что эпсилон не должен быть нормальным, чтобы условное ожидание равнялось нулю. Но вы имеете в виду что-то еще? Кроме того, да бета предполагается постоянным для всех наблюдений. И что вы думаете не так с моим аргументом о том, что предположение о линейности никак не ограничивает модель, учитывая, что эпсилон произвольный и может быть любой функцией вообще? Обратите внимание, что я знаю, что такое гетероскедастичность и что линейность означает линейный по параметрам, а не по переменным. X
user56834

3
Я не согласен с этим. Предположение об ожидании не связано с нормальностью, но абсолютно необходимо, чтобы иметь какое-либо понимание предположения о структурной линейности. В противном случае, как отмечено в статье, предположение о линейности не имеет смысла. Предположение о нормальности - это совсем другой зверь, и оно часто не нужно.
Мэтью Друри

-1

Я был немного смущен ответом выше, поэтому я сделаю еще один снимок. Я думаю, что вопрос на самом деле не о «классической» линейной регрессии, а о стиле этого конкретного источника. В части классической регрессии:

Однако само по себе предположение о линейности не создает никакой структуры в нашей модели.

Это абсолютно правильно. Как вы заявили, может также убить линейное отношение и сложить что-то совершенно независимое от чтобы мы вообще не могли вычислить какую-либо модель.ϵX

Грин неаккуратен? Должен ли он на самом деле написать:E(y|X)=Xβ

Я не хочу отвечать на первый вопрос, но позвольте мне суммировать предположения, необходимые для обычной линейной регрессии:

Предположим, что вы наблюдаете (вам дано) точки данных и для . Вы должны предположить, что данные вы наблюдали из независимо распределенных случайным образом одинаковых случайных величин , так что ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Существует фиксированная (не зависящая от ) такая, что для всех и случайные величины таковы, чтоiβRdYi=βXi+ϵiiϵi

  2. являются IID , а также и распространяется как ( должны быть независимы от , а)ϵiϵiN(0,σ)σi

  3. Для и переменные имеют общую плотность, то есть единственная случайная величина имеет плотностьX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Теперь вы можете бежать по обычному пути и вычислить

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

так что с помощью обычной «двойственности» между машинным обучением (минимизация функций ошибок) и теорией вероятностей (максимизация вероятностей) вы максимизируете в что фактически дает вам обычный материал "RMSE".logfY|X(y|x)β

Теперь, как указано: если автор книги, которую вы цитируете, хочет указать на это (что вы должны сделать, если вы когда-либо захотите вычислить «наилучшую возможную» линию регрессии в базовой установке), тогда да, он должен сделайте это предположение о нормальности где-то в книге.ϵ

Сейчас есть разные возможности:

  • Он не записывает это предположение в книгу. Тогда это ошибка в книге.

  • Он записывает это в форме «глобального» замечания типа «всякий раз, когда я пишу тогда обычно распределяются со средним нулем, если не указано иное». Тогда ИМХО это плохой стиль, потому что он вызывает именно ту растерянность, которую вы испытываете сейчас. Вот почему я склонен записывать предположения в некотором сокращенном виде в каждой теореме. Только тогда каждый строительный блок может быть просмотрен чисто по-своему.+ϵϵ

    • Он записывает это близко к той части, которую вы цитируете, а вы / мы просто этого не заметили (тоже возможно :-))

Однако и в строгом математическом смысле нормальная ошибка является чем-то каноническим (распределение с наибольшей энтропией [после того, как дисперсия зафиксирована], следовательно, производятся самые сильные модели), так что некоторые авторы склонны пропускать это предположение, но, тем не менее, использовать его , Формально вы абсолютно правы: они используют математику «неправильно». Всякий раз, когда они хотят придумать уравнение для плотности как указано выше, они должны знать довольно хорошо, в противном случае у вас просто есть его свойства, летающие в каждом разумном уравнении, которое вы пытаетесь записать , ϵfY|Xϵ


3
ошибки не должны быть нормально распределены, чтобы использовать OLS.
user56834

(-1) Ошибки не должны быть нормально распределены. На самом деле они даже не должны быть независимыми или одинаково распределенными, чтобы оценка параметров была несмещенной и чтобы тесты были согласованными. Ваши гораздо более строгие спецификации необходимы для того, чтобы OLS был точным тестом.
AdamO

@AdamO: А? Так как же тогда вычислить вероятность? Или, скорее ... если вас попросят реализовать линейную регрессию: какую линию регрессии вы выбираете, если ошибка не распределяется нормально и одиночные не являются независимыми? ϵi
Фабиан Вернер

1
@FabianWerner мой выбор модели зависит от вопроса, который нужно задать. Линейная регрессия оценивает тенденцию первого порядка в наборе данных, «практическое правило», связывающее разницу в X с разницей в Y. Если ошибки обычно не распределяются, CLT Линдеберга Феллера гарантирует, что CI и PI приблизительно правильные даже в очень маленьких образцах. Если ошибки не являются независимыми (и структура зависимости неизвестна), оценки не являются предвзятыми, хотя SE могут быть неверными. Оценка ошибки сэндвича облегчает эту проблему.
AdamO
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.