Я был немного смущен ответом выше, поэтому я сделаю еще один снимок. Я думаю, что вопрос на самом деле не о «классической» линейной регрессии, а о стиле этого конкретного источника. В части классической регрессии:
Однако само по себе предположение о линейности не создает никакой структуры в нашей модели.
Это абсолютно правильно. Как вы заявили, может также убить линейное отношение и сложить что-то совершенно независимое от чтобы мы вообще не могли вычислить какую-либо модель.ϵX
Грин неаккуратен? Должен ли он на самом деле написать:E(y|X)=Xβ
Я не хочу отвечать на первый вопрос, но позвольте мне суммировать предположения, необходимые для обычной линейной регрессии:
Предположим, что вы наблюдаете (вам дано) точки данных и для . Вы должны предположить, что данные вы наблюдали из независимо распределенных случайным образом одинаковых случайных величин , так что ...xi∈Rdyi∈Ri=1,...,n(xi,yi)(Xi,Yi)
Существует фиксированная (не зависящая от ) такая, что для всех и случайные величины таковы, чтоiβ∈RdYi=βXi+ϵiiϵi
являются IID , а также и распространяется как ( должны быть независимы от , а)ϵiϵiN(0,σ)σi
Для и переменные имеют общую плотность, то есть единственная случайная величина имеет плотностьX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y
Теперь вы можете бежать по обычному пути и вычислить
fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd−−−√)nexp(−∑ni=1(yi−βxi)22σ)
так что с помощью обычной «двойственности» между машинным обучением (минимизация функций ошибок) и теорией вероятностей (максимизация вероятностей) вы максимизируете в что фактически дает вам обычный материал "RMSE".−logfY|X(y|x)β
Теперь, как указано: если автор книги, которую вы цитируете, хочет указать на это (что вы должны сделать, если вы когда-либо захотите вычислить «наилучшую возможную» линию регрессии в базовой установке), тогда да, он должен сделайте это предположение о нормальности где-то в книге.ϵ
Сейчас есть разные возможности:
Он не записывает это предположение в книгу. Тогда это ошибка в книге.
Он записывает это в форме «глобального» замечания типа «всякий раз, когда я пишу тогда обычно распределяются со средним нулем, если не указано иное». Тогда ИМХО это плохой стиль, потому что он вызывает именно ту растерянность, которую вы испытываете сейчас. Вот почему я склонен записывать предположения в некотором сокращенном виде в каждой теореме. Только тогда каждый строительный блок может быть просмотрен чисто по-своему.+ϵϵ
- Он записывает это близко к той части, которую вы цитируете, а вы / мы просто этого не заметили (тоже возможно :-))
Однако и в строгом математическом смысле нормальная ошибка является чем-то каноническим (распределение с наибольшей энтропией [после того, как дисперсия зафиксирована], следовательно, производятся самые сильные модели), так что некоторые авторы склонны пропускать это предположение, но, тем не менее, использовать его , Формально вы абсолютно правы: они используют математику «неправильно». Всякий раз, когда они хотят придумать уравнение для плотности как указано выше, они должны знать довольно хорошо, в противном случае у вас просто есть его свойства, летающие в каждом разумном уравнении, которое вы пытаетесь записать , ϵfY|Xϵ