Вопрос о стандартизации в гребне регрессии

17

Эй, ребята, я нашел одну или две статьи, в которых используется регрессия гребня (для данных о баскетболе). Мне всегда говорили стандартизировать мои переменные, если я запускал регрессию гребня, но мне просто сказали сделать это, потому что гребень был масштабным вариантом (регрессия гребня не была действительно частью нашего курса, поэтому наш лектор просматривал его).

Эти документы, которые я читал, не стандартизировали их переменные, что показалось мне немного удивительным. Они также получили большие значения лямбда (около уровня 2000-4000) через перекрестную проверку, и мне сказали, что это связано с не стандартизацией переменных.

Как именно оставление переменной (ей) нестандартной приводит к высоким значениям лямбды, а также, каковы последствия не стандартизации переменных в целом? Это действительно такая большая сделка?

Любая помощь очень ценится.

regression standardization

— l_davies93
источник

18

Регресс Риджа упорядочивает линейную регрессию, накладывая штраф на размер коэффициентов. Таким образом, коэффициенты сокращаются до нуля и друг к другу. Но когда это происходит и если независимые переменные не имеют одинаковый масштаб, сокращение не является справедливым. Две независимые переменные с разными шкалами будут иметь разные вклады в штрафные термины, потому что штрафованный член представляет собой сумму квадратов всех коэффициентов. Чтобы избежать подобных проблем, очень часто независимые переменные центрируются и масштабируются, чтобы иметь дисперсию 1.

[Позднее редактировать, чтобы ответить на комментарий]

$height$

Термин штрафования с использованием лямбды такой же, как выражение функции квадрата потерь по отношению к сумме квадратов коэффициентов, меньших или равных данной константе. Это означает, что большая лямбда дает больше места квадрату суммы коэффициентов, а более низкая лямбда - меньшее пространство. Большее или меньшее пространство означает большие или меньшие абсолютные значения коэффициентов.

Если не использовать стандартизацию, то для подгонки модели могут потребоваться большие абсолютные значения коэффициентов. Конечно, мы можем иметь большое значение коэффициента, естественно, из-за роли переменной в модели. Я утверждаю, что это значение может иметь искусственно завышенное значение из-за отсутствия масштабирования. Таким образом, масштабирование также уменьшает потребность в больших значениях коэффициентов. Таким образом, оптимальное значение лямбды обычно будет меньше, что соответствует меньшей сумме квадратов значений коэффициентов.

— rapaio
источник

Благодарю. Как бы стандартизация не привела к более высокой оценочной погрешности теста (через перекрестную проверку) и, следовательно, к необходимости более высокой лямбды?

— l_davies93

Я добавил свою мысль в ответ

— rapaio

Я знаю, что это старый вопрос, но не могли бы вы объяснить, почему параметр настройки должен

— увеличиваться,

1

Хотя на четыре года позже, надеюсь, кто-то выиграет от этого ... Как я понял, коэффициент - это то, насколько целевая переменная изменяется для изменения единицы в независимой переменной (dy / dx). Предположим, мы изучаем связь между весом и ростом, а вес измеряется в кг. Когда мы используем Километры для высоты, вы можете представить, что большинство точек данных (для человеческого роста) упакованы близко. Таким образом, для небольшого дробного изменения роста будет происходить огромное изменение веса (при условии увеличения веса с ростом). Соотношение dy / dx будет огромным. С другой стороны, если высота измеряется в миллиметрах, данные будут распространяться повсюду по атрибутам высоты. На единицу изменения высоты не будет существенного изменения веса, dy / dx будет очень маленьким почти близко к 0.

— user3358819
источник