В « Статистических методах в атмосферных науках» Дэниел Уилкс отмечает, что множественная линейная регрессия может привести к проблемам, если между предикторами существуют очень сильные корреляции (3-е издание, стр. 559-560):
Патология, которая может возникнуть при множественной линейной регрессии, состоит в том, что набор переменных-предикторов, имеющих сильные взаимные корреляции, может привести к вычислению нестабильной регрессионной зависимости.
(...)
Затем он вводит регрессию основного компонента:
Подход к решению этой проблемы состоит в том, чтобы сначала преобразовать предикторы в их основные компоненты, корреляции между которыми равны нулю.
Все идет нормально. Но затем он делает некоторые заявления, которые он не объясняет (или, по крайней мере, недостаточно подробно для меня, чтобы понять):
Если все главные компоненты сохраняются в регрессии главных компонентов, то ничего не получается по сравнению с обычными наименьшими квадратами, подходящими для полного набора предикторов.
(..) и:
Можно повторно выразить регрессию основного компонента в терминах исходных предикторов, но в общем случае результат будет включать все исходные переменные предиктора, даже если использовался только один или несколько предикторов основного компонента. Эта восстановленная регрессия будет смещенной, хотя часто дисперсия намного меньше, что приводит к меньшему MSE в целом.
Я не понимаю эти два момента.
Конечно, если все основные компоненты сохраняются, мы используем ту же информацию, что и при использовании предикторов в их исходном пространстве. Однако проблема взаимных корреляций устраняется при работе в главном компонентном пространстве. У нас все еще может быть переоснащение, но разве это единственная проблема? Почему ничего не получается?
Во-вторых, даже если мы усекаем основные компоненты (возможно, для уменьшения шума и / или для предотвращения переоснащения), почему и как это приводит к предвзятой восстановленной регрессии? Предвзято каким образом?
Источник книги: Даниэль С. Уилкс, Статистические методы в науках об атмосфере, Третье издание, 2011. Международная серия геофизики, том 100, Academic Press.