Показывает, что оценщик OLS является масштабно-эквивалентным?


11

У меня нет формального определения масштабной эквивалентности, но вот что говорит об этом « Введение в статистическое обучение» на стр. 217:

Стандартные коэффициенты наименьших квадратов ... являются масштабно-эквивалентными : умножение Xj на константу c просто приводит к масштабированию оценок коэффициента наименьших квадратов с коэффициентом 1/c .

Для простоты предположим, что общая линейная модель , где , является матрицей (где ) со всеми записями в , и - это мерный вектор вещественных случайных величин с .y=Xβ+ϵyRNXN×(p+1)p+1<NRβRp+1ϵNE[ϵ]=0N×1

Из оценки OLS мы знаем, что если имеет полный ранг (столбец), Предположим, мы умножили столбец , скажем, для некоторого , константой . Это было бы эквивалентно матрице β Х = ( Х Т Х ) - 1 х Т у . X x k k { 1 , 2 , , p + 1 } c 0 X [ 1X

β^X=(XTX)1XTy.
Xxkk{1,2,,p+1}c0 S0скС~ Х ~ Х β ~ Х =( ~ Х Т ~ Х )-1 ~ Х Ту, ˜ X T˜ X =[ x T 1
X[111c11]S=[x1x2cxkxp+1]X~
где все остальные элементы матрицы выше равны , а находится в й записи диагонали . Потом,S0ckSX~X~так как новая матрица дизайна - После некоторой работы можно показать, что
β^X~=(X~TX~)1X~Ty.
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} и
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Как мне перейти отсюда, чтобы показать приведенное выше утверждение (то есть, что )? Мне не понятно, как вычислить .( ~ Х Т ~ Х )-1β^X~=1cβ^X(X~TX~)1

Я думаю, что ваш неправильный, в нем отсутствует множитель во всей строке. cX~TX~c
Firebug

1
Кроме того, имейте в виду, что утверждение , не каждое . ββ^k,new=1cβ^k,oldβ
Firebug

@ Firebug Да, я только что понял это. Я отправляю ответ.
Кларнетист

2
Вы можете заменить всю эту алгебру намного более простым анализом единиц, потому что умножение на просто меняет его единицу измерения, и поэтому соответствующее изменение в единицах, связанных с его коэффициентом состоит в том, чтобы разделить его на . К сожалению, это не доказывает, что должен быть разделен на . Тем не менее, эта цепочка мыслей может напоминать нам, что множественная регрессия может быть выполнена последовательностью регрессий против одного регрессора за один раз, когда ясно, что делится на , и поэтому доказательство завершено. Xjcβjcβ^jcβ^jc
Whuber

@whuber, хотя интуиция и результат ясны, кажется, что в доказательстве просто должно быть немного алгебры. В конце концов, масштабный коэффициент необходимо инвертировать. c
user795305

Ответы:


11

Поскольку утверждение в цитате представляет собой набор утверждений о масштабировании столбцов , вы можете также доказать их все сразу. На самом деле, не требуется больше работы, чтобы доказать обобщение утверждения:X

Когда умножается вправо на обратимую матрицу , тогда новая оценка коэффициента равна умноженной влево на .XAβ^Aβ^A1

Единственные алгебраические факты, которые вам нужны, это (легко доказанные, хорошо известные), которые для любых матриц и для обратимых матриц и . (Более тонкая версия последнего необходима при работе с обобщенными инверсиями: для обратимых и и любых , . )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Доказательство по алгебре :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (Чтобы это доказательство было полностью общим, верхний индекс относится к обобщенному обратному.)


Доказательство по геометрии :

Указанные основы и из и , соответственно, представляет собой линейное преобразование из к . Умножение вправо на можно рассматривать как оставление этого преобразования фиксированным, но изменение на (то есть на столбцы ). При таком изменении базиса представление любого вектора должно изменяться посредством умножения влево на ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1КЕД .

(Это доказательство работает без изменений, даже если не обратимо.)XX


Цитата конкретно относится к случаю диагональных матриц с для и .AAii=1ijAjj=c


Связь с наименьшими квадратами

Задача здесь состоит в том, чтобы использовать первые принципы для получения результата, причем принцип наименьших квадратов: оценка коэффициентов, минимизирующих сумму квадратов невязок.

Снова, доказательство (огромное) обобщение оказывается не более сложным и довольно показательным. Предположим, что - любое отображение (линейное или нет) вещественных векторных пространств, и пусть - любая вещественная функция на . Пусть - (возможно, пустой) набор точек для которых минимизировано.

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Результат: , который определяется исключительно и , не зависит от выбора базиса используемого для представления векторов в .UQϕEpVp

Доказательство: QED.

Там нет ничего, чтобы доказать!

Применение результата: пусть - положительная полуопределенная квадратичная форма на , пусть , и пусть - линейное отображение, представленное когда основания и выбраны. Определите . Выберите базис и предположим, что является представлением некоторого в этом базисе. Это наименьших квадратов : минимизирует квадрат расстояния . Потому чтоR n y R n ϕ X V p = R p W n = R n Q ( x ) = F ( y , x ) R pFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xлинейное отображение, изменение основы соответствует правой умножения некоторой обратимой матрицы . Это будет умножение влево на , QED .RpXAβ^A1


6

Определите оценщик наименьших квадратов , где матрица проектирования - полный ранг. Предполагая, что масштабирующая матрица обратима.β^=argminβRpyXβ22XRn×pSRp×p

Определите этот новый масштабированный оценщик . Это означает, что для всех . Определив , мы можем переписать это отображаемое неравенство выше как для всех . Следовательно, , и отсюда следует, что оценка наименьших квадратов Из-за обратимости матрицы масштабированияα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, отсюда следует, что . В нашем случае это отличается от тем, что запись масштабируется с помощью .α~=S1β^β^kth1c

1
Я не знаком с тем, как я должен работать с и подобными функциями. Можете ли вы объяснить переход от второй к третьей строке уравнений? arg min
Кларнетист

Я написал это немного по-другому, что должно сделать шаги более понятными.
user795305

Это действительно умно. (+1)
Кларнетист

4

Я понял это после публикации вопроса. Однако, если моя работа верна, я неверно истолковал претензию. масштабирование происходит только на одном компоненте соответствующего колонке умножаются на .1cβXc

Обратите внимание, что в приведенных выше обозначениях является диагональной, симметричной матрицей и имеет обратную (потому что она диагональную) Обратите внимание, что - матрица . Предположим, что S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Следовательно, и умножив это на имеет тот же эффект, что и умножение на - оно остается тем же, умножается на
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Поэтому
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
по желанию.

В есть опечатка . Вам нужно транспонировать . S1(XTX)1S1(XS)y(XS)
JohnK

3

Самое тривиальное доказательство

Вы начинаете со своего линейного уравнения: Теперь вы хотите изменить шкалу ваших регрессоров, возможно, конвертировать из метрической системы в имперскую, вы знаете килограммы в фунты, метры в ярды и т. Д. Итак, вы подходите с матрицей преобразования , где каждый является коэффициентом преобразования для переменной (колонки) в конструкции матрице .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Давайте перепишем уравнение:

Y=(XS)(S1β)+ε

Теперь совершенно очевидно, что масштабирование - это свойство линейности вашего уравнения, а не метод оценки коэффициентов методом OLS. Независимо от метода оценки с линейным уравнением у вас есть такое, что, когда регрессоры масштабируются как ваши новые коэффициенты должны масштабироваться какXSS1β

Доказательство по алгебре только для OLS

Масштабирование заключается в следующем: , где масштабный коэффициент каждой переменной (столбца), и уменьшенная версия . Назовем матрицу диагональной шкалы . Ваш оценщик OLS: Давайте подключим масштабированную матрицу вместо и используем некоторую матричную алгебру : Итак, вы видите, что новый коэффициент - это просто старый коэффициент, уменьшенный, как и ожидалось.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
Мне нравятся ваши подходы, но меня не убеждает «самое тривиальное доказательство». Вы неявно предполагали, и все еще должны показать, что переписанная модель должна иметь то же соответствие, что и оригинал. Если говорить более строго: если мы рассматриваем процедуру подбора как функцию , где - множество всех возможных данных (которые мы могли бы записать как упорядоченная пара ), а - множество всех возможных оценок коэффициентов, тогда вам нужно продемонстрировать, что , для всех обратимых , все , и все . (Это не всегда верно!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
whuber

@ whuber, на самом деле это другой путь: разумная процедура подбора должна удовлетворять этому условию, иначе простое изменение единицы измерения приведет к другому прогнозу / оценке. Я
Аксакал

Я согласен - но я могу представить исключения в тех случаях, когда не имеет полного ранга. Вот что подсказало мне, что ситуация не так тривиальна, как может показаться. X
whuber

3
имперский приятель, а не королевский ...: D (Хороший ответ, +1)
usεr11852

@ usεr11852, я кое-что узнал сегодня :)
Аксакал

2

Простой способ получить этот результат - помнить, что - это проекция на пространство столбцов в - это вектор коэффициентов, когда выражается в виде линейного комбинация столбцов . Если некоторый столбец масштабируется с коэффициентом , ясно, что соответствующий коэффициент в линейной комбинации должен быть масштабирован до .y^yX. β^y^Xc1/c

Пусть - это значения а - значения решения OLS, когда один столбец масштабируется с помощьюβ я с . б 1 х 1 + . , , + б я х я + . , , + Б м х м = с 1 х 1 + . , , a i ( c x i ) + . , , + П х пbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

подразумевает, что где и , предполагая, что столбцы линейно независимы.bj=ajjibi=aicX

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.