Как центрирование данных избавляет от перехвата в регрессии и PCA?


41

Я продолжаю читать о случаях, когда мы центрируем данные (например, с помощью регуляризации или PCA), чтобы удалить перехват (как упомянуто в этом вопросе ). Я знаю, что это просто, но мне трудно понять это интуитивно. Может ли кто-нибудь предоставить интуицию или ссылку, которую я могу прочитать?


2
Это очень особый случай «контроля за другими переменными», как объяснялось (несколькими способами) на stats.stackexchange.com/questions/17336/… . Контролируемая «переменная» - это постоянный (перехваченный) член.
whuber

Ответы:


67

Могут ли эти картинки помочь?

Первые 2 картины о регрессии. Центрирование данных не изменяет наклон линии регрессии, но делает пересечение равным 0.

введите описание изображения здесь

1

введите описание изображения здесь


1


1
Y¯-Икс¯β

17
PCA is maximizing varianceЭто не совсем так. PCA максимизирует (по 1-му ПК) сумму квадратов отклонений от начала координат. Только если данные были предварительно центрированы (само центрирование не является частью PCA), это максимизирует дисперсию.
ttnphns

3
PS Обратите внимание, что вычисление ковариаций или корреляций подразумевает центрирование
ttnphns

1
> PS Обратите внимание, что вычисление ковариаций или корреляций подразумевает центрирование - ttnphns 27 августа '12 в 11:47. Хотя я согласен с вашими другими комментариями, и ковариация, и корреляция НЕ подразумевают центрирование. Ни cor, ни covar не изменяют значение, когда к данным применяется аддитивная константа.
TPM

1
Это задом наперед. Аддитивные константы действительно не влияют на корреляции, но это потому, что они вычитаются в вычислениях, как указывал @ttphns. Кроме того, это не новый ответ, а комментарий. Мы понимаем, что у вас еще недостаточно репутации, чтобы комментировать, поэтому, я надеюсь, это будет перемещено пользователем с достаточной репутацией после того, как я его отмечу.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.