Учитывая две модели линейной регрессии, какая модель будет работать лучше?


14

Я взял курс машинного обучения в моем колледже. В одной из викторин был задан этот вопрос.

Модель 1:

y=θx+ϵ
Модель 2:
y=θx+θ2x+ϵ

Какая из вышеперечисленных моделей подойдет для данных лучше? (предположим, что данные могут быть смоделированы с использованием линейной регрессии)

Правильный ответ (по словам профессора) заключается в том, что обе модели будут работать одинаково хорошо. Однако я считаю, что первая модель подойдет лучше.

Это причина моего ответа. Вторая модель, которую можно переписать как αx+ϵ , α=θ+θ2 , не будет такой же, как первая модель. α самом деле α является параболой и, следовательно, имеет минимальное значение ( в данном случае 0.25 ). Теперь из-за этого диапазон θ в первой модели больше, чем диапазон α во второй модели. Следовательно , если данные были такими , что лучше всего подходит имел наклон меньше 0.25 , вторая модель будет выполнять очень плохо , по сравнению с первым. Однако в случае, если наклон наилучшего соответствия был больше, чем0.25 , обе модели будут работать одинаково хорошо.

Так что, первый лучше или оба одинаковы?


3
Я думаю, что вы правы. Требование, чтобы параметр был выразим как θ + θ 2 (для некоторого θ ), действительно накладывает ограничение на то, что α возможны. Это означает, что вторая модель может выражать меньше связей, чем первая, так как по существу она является теперь проблемой ограниченной оптимизации. Твои рассуждения кажутся мне убедительными. αθ+θ2θα
Мэтью Друри

@MatthewDrury Я только что выяснил, где я ошибся, взгляните на ответ ниже (и комментарий)
kush

3
Я вижу ваш комментарий, но это довольно серьезная гимнастика, предполагающая, что будет принимать сложные значения. Я бы определенно присутствовал на некоторых офисных часах, чтобы обсудить это с вашим профессором. В любом случае вы получите хорошее обсуждение этого вопроса. θ
Мэтью Друри

1
Мне не понятно откуда взято -0.25. Вы можете уточнить?
Безумный Джек

1
Мне было бы интересно узнать, как ваш профессор подгонит каждую модель к двухточечному набору данных . С моделью 1 и θ = - 1 подбор идеален, но как он оценит θ в модели 2, чтобы получить идеальное соответствие? {(1,1),(2,2)}θ=1θ
whuber

Ответы:


9

Модель 2 может быть записана как: Это похоже на модель 1, но с другими обозначениями для гиперпараметров ( θ , β ). Тем не менее, для модели 1 можно записать θ = ( Х

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Но так как в модели 2 мы имеем , что то , как вы упомянули , действительно диапазон р должен принадлежать [ - 0,25 , + ] для & thetas R . Что приведет к разнице в этих 2 моделях.

β=θ+θ2,
β^[0.25,+]θR

Таким образом , в модели 2 вы сдерживая свою оценку коэффициента в отличие от модели 1. Для того, чтобы сделать это более ясным, следует отметить , что в модели получается путем минимизации квадратичной функции потерь θ = Arg мин θ R ( у - X θ )θ^ Однако в модели 2 оценка получаетсяпомощью & beta ; =Arg мин & beta ; - 0,25 (у-Х& beta)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
что может привести к другому результату.
β^=argminβ0.25  (yXβ)(yXβ)

1
θθ+θ2θ

@kush Пожалуйста , проверьте мой отредактированный ответ , который также адреса вашего беспокойства
И

1

Не уверен, что понимаю ваши рассуждения. Если вы берете:

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ(,)α(0.25,)x
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.