Почему Даниэль Уилкс (2011) говорит, что регресс основного компонента «будет предвзятым»?


13

В « Статистических методах в атмосферных науках» Дэниел Уилкс отмечает, что множественная линейная регрессия может привести к проблемам, если между предикторами существуют очень сильные корреляции (3-е издание, стр. 559-560):

Патология, которая может возникнуть при множественной линейной регрессии, состоит в том, что набор переменных-предикторов, имеющих сильные взаимные корреляции, может привести к вычислению нестабильной регрессионной зависимости.

(...)

Затем он вводит регрессию основного компонента:

Подход к решению этой проблемы состоит в том, чтобы сначала преобразовать предикторы в их основные компоненты, корреляции между которыми равны нулю.

Все идет нормально. Но затем он делает некоторые заявления, которые он не объясняет (или, по крайней мере, недостаточно подробно для меня, чтобы понять):

Если все главные компоненты сохраняются в регрессии главных компонентов, то ничего не получается по сравнению с обычными наименьшими квадратами, подходящими для полного набора предикторов.

(..) и:

Можно повторно выразить регрессию основного компонента в терминах исходных предикторов, но в общем случае результат будет включать все исходные переменные предиктора, даже если использовался только один или несколько предикторов основного компонента. Эта восстановленная регрессия будет смещенной, хотя часто дисперсия намного меньше, что приводит к меньшему MSE в целом.

Я не понимаю эти два момента.

Конечно, если все основные компоненты сохраняются, мы используем ту же информацию, что и при использовании предикторов в их исходном пространстве. Однако проблема взаимных корреляций устраняется при работе в главном компонентном пространстве. У нас все еще может быть переоснащение, но разве это единственная проблема? Почему ничего не получается?

Во-вторых, даже если мы усекаем основные компоненты (возможно, для уменьшения шума и / или для предотвращения переоснащения), почему и как это приводит к предвзятой восстановленной регрессии? Предвзято каким образом?


Источник книги: Даниэль С. Уилкс, Статистические методы в науках об атмосфере, Третье издание, 2011. Международная серия геофизики, том 100, Academic Press.


4
(+1) Во второй цитате «будет предвзятым» не следует логически: лучше было бы более мягкое утверждение, такое как «вероятно, будет предвзятым». Я подозреваю, что причиной этого может быть что-то вроде «потому что ПЦР налагает линейные отношения между оценками параметров, эти оценки будут иметь тенденцию отличаться от оценок OLS; и поскольку оценки OLS несмещены, это означает, что оценки PCR будут смещены». Интуитивно понятно, что это хорошая эвристика, но это не совсем правильно.
whuber

Можно ли сказать, что «ПЦР будет смещена», если (а) точки данных не занимают линейное многообразие с меньшим или равным размером, чем выбранное количество ПК, и (б) точки данных не являются совершенно некоррелированными? или как?
Сорен Хавелунд Веллинг

Ответы:


15

Что происходит, когда используются все ПК?

Если используются все ПК, то результирующие коэффициенты регрессии будут идентичны коэффициентам, полученным с помощью регрессии OLS, и поэтому эту процедуру лучше не называть «регрессия основного компонента». Это стандартная регрессия, выполняется только окольным путем.

ZZИксXi

Так что ничего не получено.

Что происходит, когда используется всего несколько компьютеров?

β^PCRβ^OLSβ^

Это пример компромисса с отклонением . См. Почему работает усадка? для дальнейшего общего обсуждения.

yyy

Почему использование ПК с высокой дисперсией - это вообще хорошая идея?

Это не было частью вопроса, но вас может заинтересовать следующая ветка для дальнейшего чтения: Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?


YY

@whuber, действительно. Я переписал этот абзац, надеюсь, теперь он имеет больше смысла. Благодарю.
говорит амеба: восстанови Монику

Хм, верно. По сути, смещение означает, что некоторые точки более равны, чем другие, и это именно то, чего мы хотим, если мы хотим уменьшить влияние шума и выбросов (в которых я пока не уверен, является ли PCA лучшим инструментом).
Gerrit

@gerrit Вы пишете так, как если бы смещение было равносильно взвешиванию, но это разные вещи. Смещение в этом контексте относится к любой разнице между ожидаемыми значениями оценок коэффициентов и их истинными значениями.
whuber

1
Модель предполагает, что ответы являются случайными величинами. Это делает оценочные коэффициенты - используя любую процедуру - случайными переменными также. Их ожидаемые значения определяются как для любой случайной величины. По определению, смещение - это разница между ожидаемым значением и истинным значением. Оценки коэффициента МНК имеют смещения нуля. Смещение какой-либо другой процедуры все еще может быть нулевым. Логика цитаты заключается в том, что процедура, которая является линейной, как OLS, но налагает отношения между коэффициентами, будет обязательно смещена. Этот вывод верен во многих случаях, но не во всех.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.