Необходимость центрирования и стандартизации данных в регрессии


16

Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетИкс||Axb||2+λ||x||1

Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее. Я хочу убедиться в правильности моего понимания причины стандартизации и центрирования.b

Обнуляя значения столбцов и , мы больше не нуждаемся в члене-перехватчике. В противном случае целью была бы . Делая нормы столбцов A равными 1, мы исключаем возможность случая, когда только потому, что один столбец A имеет очень высокую норму, он получает низкий коэффициент по , что может привести к неправильному выводу, что этот столбец А не "объясняет" хорошо.Ab||Axx01b||2+λ||x||1xИкс

Это рассуждение не совсем строго, но интуитивно, это правильный способ мышления?

Ответы:


14

Вы правы, обнуляя средние значения столбцов и b .Ab

Однако, что касается корректировки норм столбцов , подумайте, что произойдет, если вы начали с нормированного A , и все элементы x имели примерно одинаковую величину. Затем умножим один столбец, скажем, на 10 - 6 . Соответствующий элемент x в нерегулярной регрессии будет увеличен в 10 6 раз . Посмотрите, что будет с термином регуляризации? Для всех практических целей регуляризация будет применяться только к этому одному коэффициенту. AAx106x106

AxAxAAxAx

AxAxAx


$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at allAx

xβAXbyxA
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.