Я полагаю, что путаница может быть вызвана чем-то более простым, но это дает хорошую возможность рассмотреть некоторые связанные вопросы.
Обратите внимание, что в тексте не утверждается, что все коэффициенты регрессии может быть вычислен через последовательные векторы невязок как
но скорее только последний , , может быть рассчитан таким образом! β я ? = ⟨У,гя⟩β^iΒ р
β^i=?⟨y,zi⟩∥zi∥2,
β^p
Последовательная схема ортогонализации (форма ортогонализации Грама – Шмидта) (почти) создает пару матриц и такой, что
где - это с ортонормированными столбцами, а - это верхней треугольной. Я говорю «почти», так как алгоритм задает только до норм столбцов, которые в общем случае не будут единичными, но могут быть сделаны с единичной нормой путем нормализации столбцов и соответствующей простой корректировки координаты матрица .ZX = Z GGZ
X=ZG,
ZG = ( g i j ) p × p Z Gn×pG=(gij)p×pZG
Предполагая, конечно, что имеет ранг , единственным решением наименьших квадратов является вектор который решает систему
р ≤ п β Х Т Х β = Х Т уX∈Rn×pp≤nβ^
XTXβ^=XTy.
Подставляя и используя (по построению), получим
что эквивалентно
Z T Z = Я О Т О β = О Т Z Т уX=ZGZTZ=IG β = Z Т у
GTGβ^=GTZTy,
Gβ^=ZTy.
Теперь сосредоточимся на последнем ряду линейной системы. Единственный ненулевой элемент в последней строке - это . Итак, мы получаем это
Нетрудно увидеть (проверьте это как проверку понимания!), Чтои так это дает решение. ( Предостерегающий лектор : я использовал уже нормализованный, чтобы иметь единичную норму, тогда как в книге они не имеют . Это объясняет тот факт, что книга имеет квадратную норму в знаменателе, тогда как у меня есть только норма.)Ggpp
gppβ^p=⟨y,zp⟩.
gpp=∥zp∥zi
Чтобы найти все коэффициенты регрессии, нужно выполнить простой шаг обратной подстановки, чтобы найти для индивидуума . Например, для строки ,
и так
Можно продолжить эту процедуру, работая «в обратном направлении» от последнего ряда системы до первого, вычитая взвешенные суммы уже рассчитанных коэффициентов регрессии, а затем деля на главный член чтобы получить .β^i(p−1)
gp−1,p−1β^p−1+gp−1,pβ^p=⟨zp−1,y⟩,
β^p−1=g−1p−1,p−1⟨zp−1,y⟩−g−1p−1,p−1gp−1,pβ^p.
giiβ^i
Суть этого раздела в ESL заключается в том, что мы можем изменить порядок столбцов чтобы получить новую матрицу при этом й исходный столбец теперь является последним. Если мы затем применим процедуру – Шмидта к новой матрице, мы получим новую ортогонализацию, такую, что решение для исходного коэффициента будет найдено простым решением выше. Это дает нам интерпретацию для коэффициента регрессии . Это одномерная регрессия для остаточного вектора, полученная путем "регрессии" оставшихся столбцов матрицы проектирования из .XX(r)rβ^rβ^ryxr
Общие QR-разложения
Процедура Грама-Шмидта , но один способ получения QR - разложение . Действительно, есть много причин, чтобы предпочесть другие алгоритмические подходы процедуре Грамма-Шмидта.X
Размышления домохозяев и ротации Гивенса обеспечивают более численно устойчивые подходы к этой проблеме. Обратите внимание, что вышеприведенное развитие не меняется в общем случае разложения QR. А именно, пусть
быть любой QR - разложение . Тогда, используя точно те же рассуждения и алгебраические манипуляции, что и выше, мы получаем, что решение наименьших квадратов удовлетворяет
который упрощается до
Так как является верхнетреугольной, то работает тот же метод обратной замены. Сначала мы решаем для
X=QR,
Xβ^RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^pи затем продвигайтесь назад снизу вверх. Выбор для
которых QR - разложения алгоритм использовать обычно шарниры на контроль численную неустойчивости и, с этой точки зрения, Гры-Шмидт , как правило , не является конкурентным подходом.
Это понятие разложения как ортогональной матрицы на что-то еще можно обобщить немного дальше, чтобы получить очень общую форму для подобранного вектора , но я боюсь, что этот ответ уже стал слишком длинным ,Xy^