Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого хорошего представления о том, почему они встречаются в моделях с обмундированием. Неправильно ли говорить, что они являются признаком переоснащения, а коэффициент усадки является скорее техникой уменьшения дисперсии в модели? Регуляризация посредством сжатия коэффициентов, кажется, работает по принципу, согласно которому большие коэффициенты являются результатом переобученной модели, но, возможно, я неверно истолковываю мотивацию, лежащую в основе этой техники.
Мое понимание того, что большие коэффициенты, как правило, являются признаком переоснащения, исходит из следующего примера:
Допустим, мы хотели подогнать точек, которые все находятся на оси X. Мы можем легко построить многочлен, решения которого являются этими точками: f ( x ) = ( x - x 1 ) ( x - x 2 ) . , , , ( x - x n - 1 ) ( x - x n ) . Скажем, наши точки в х = 1 , 2 , 3 , 4, Этот метод дает все коэффициенты> = 10 (кроме одного коэффициента). Когда мы добавим больше точек (и тем самым увеличим степень многочлена), величина этих коэффициентов будет быстро увеличиваться.
Этот пример показывает, как я в настоящее время связываю размер коэффициентов модели со «сложностью» сгенерированных моделей, но я обеспокоен тем, что этот случай бесполезен, чтобы действительно указывать на поведение в реальном мире. Я намеренно построил переопределенную модель (полиномиальная МНК 10-й степени, подходящая к данным, сгенерированным из модели квадратичной выборки), и был удивлен, увидев в моей модели в основном небольшие коэффициенты:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
Может быть, вывод из этого примера состоит в том, что две трети коэффициентов меньше 1, и по отношению к другим коэффициентам есть три коэффициента, которые являются необычно большими (и переменные, связанные с этими коэффициентами, также оказываются наиболее близкими связано с истинной моделью выборки).
Является ли (L2) регуляризация всего лишь механизмом уменьшения дисперсии в модели и, таким образом, «сглаживания» кривой для лучшего соответствия будущим данным, или же она использует эвристику, полученную из наблюдения, что перегруженные модели имеют тенденцию демонстрировать большие коэффициенты? Является ли точное утверждение, что переоснащенные модели имеют тенденцию демонстрировать большие коэффициенты? Если да, может кто-нибудь немного объяснить механизм, лежащий в основе этого явления, и / или направить меня к какой-нибудь литературе?