Причина не сокращения срока смещения (перехвата) в регрессии

21

Для линейной модели $y=\beta_0+x\beta+\varepsilon$ сжимающий член всегда равен $P(\beta)$ .

В чем причина того, что мы не уменьшаем смещение (перехват) члена $\beta_0$ ? Должны ли мы сократить срок смещения в моделях нейронных сетей?

— yliueagle
источник

Библиотечная библиотека для логистической регрессии, используемая в scikit-learn, штрафует термин смещения (я думаю, что это артефакт реализации, смещение обрабатывается как дополнительная входная переменная)

— seanv507

33

Элементы статистического обучения Hastie et al. определяет гребень регрессии следующим образом (раздел 3.4.1, уравнение

\hat{β}^{р я d грамм е} знак равно \underset{β}{a р грамм м я N} {Σ_{я знак равно 1}^{N} (Y_{я} - β_{0} - Σ_{J знак равно 1}^{п} {Икс}_{я J} β_{J})^{2} + λ Σ_{J знак равно 1}^{п} β_{J}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$ т.е. явно исключить член перехвата

β_{0}

$\beta_0$ из штрафа за гребень.

Затем они пишут:

[...] обратите внимание, что перехват был исключен из штрафного срока. Наказание за перехват сделало бы процедуру зависящей от происхождения, выбранного для ; то есть добавление константы к каждой из целей не просто приведет к сдвигу прогнозов на ту же величину . $\beta_0$ $Y$ $c$ $y_i$ $c$

В самом деле, при наличии члена перехвата, добавление ко всем просто приведет к $c$ $y_i$ увеличивается на , а также исоответственновсе предсказанных значений также увеличится на . Это неверно, если перехват оштрафован: должен будет увеличиться менее чем на . $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

На самом деле, есть несколько приятных и удобных свойств линейной регрессии, которые зависят от наличия правильного (непенализованного) члена-перехвата. Например , среднее значение и среднего значения равны, и , следовательно , () квадрат множественного коэффициента корреляции равен коэффициенту определения : $y_i$ $\hat y_i$ $R$ $R^2$ см., Например, эту ветку для объяснения:геометрическая интерпретация коэффициента множественной корреляции и коэффициента детерминации .

(р)^{2} знак равно {соз}^{2} (\hat{Y}, Y) знак равно \frac{| | \hat{Y} {| |}^{2}}{| | Y {| |}^{2}} знак равно р^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Наказание за перехват приведет к тому, что все это больше не будет правдой.

— амеба говорит восстановить монику
источник

2

Вспомните цель усадки или регуляризации. Это делается для того, чтобы алгоритм обучения не соответствовал учебным данным или, что эквивалентно, не позволяет выбирать произвольно большие значения параметров. Это более вероятно для наборов данных с более чем несколькими примерами обучения при наличии шума (очень интересная дискуссия о наличии шума и его влиянии обсуждается в «Изучение данных» Ясера Абу-Мустафы). Модель, изученная на зашумленных данных без регуляризации, вероятно, будет плохо работать в некоторых невидимых точках данных.

Имея это в виду, представьте, что у вас есть точки 2D данных, которые вы хотите классифицировать по двум классам. Если фиксировать все параметры, кроме смещения, то изменение члена смещения просто сместит границу вверх или вниз. Вы можете обобщить это в пространство более высокого измерения.

Алгоритм обучения не может устанавливать произвольно большие значения для термина смещения, поскольку это может привести к значению валовых потерь (модель не будет соответствовать обучающим данным). Другими словами, учитывая некоторый тренировочный набор, вы (или алгоритм обучения) не можете произвольно отодвинуть плоскость от истинной.

Таким образом, нет причин для сокращения термина смещения, алгоритм обучения найдет хороший без риска переоснащения.

Последнее замечание: я видел в некоторых работах, что при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения. Это может работать для линейно разделяемых данных, поскольку при добавлении большего количества измерений появляется больше возможностей для разделения двух классов.

— Владислав Довгальец
источник

Можете ли вы дать ссылки на некоторые статьи, в которых говорится, что "при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения"?

— чандреш

1

Термин перехвата абсолютно не застрахован от усадки. Общая формулировка «усадка» (т.е. регуляризация) помещает термин регуляризации в функцию потерь, например:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

$f(\beta)$ $\lambda$

$\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Теперь я не могу говорить о регуляризации для нейронных сетей. Вполне возможно, что для нейронных сетей вы хотите избежать сокращения термина смещения или иначе спроектировать функцию регуляризованных потерь в отличие от формулировки, которую я описал выше. Я просто не знаю. Но я сильно подозреваю, что веса и условия смещения упорядочены вместе.

— Дэвид Маркс
источник

2

Это зависит от соглашения, но, например, «Элементы статистического обучения» Hastie et al. определить регрессию гребня так, чтобы перехват не наказывался (см. мой ответ). Я подозреваю, что это может быть более стандартным, чем иначе.

— говорит амеба: восстанови Монику

1

Я не уверен, что приведенный выше ответ Дэвида Маркса является совершенно правильным; согласно Эндрю Нг, условно коэффициент смещения / перехвата обычно не регуляризован в линейной регрессии, и в любом случае, регуляризован он или нет, не имеет существенного значения.

— xenocyon
источник

1

Я дам самое простое объяснение, а затем расширю.

Y_{T} знак равно ε_{T}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$ об линейной регрессии. Следовательно, оценочные коэффициенты не будут иметь хороших свойств, таких как непредвзятость.

$\beta$

$\beta$ $\beta_0$

Y_{T} знак равно β_{0} + ε_{T}

$y_t=\beta_0+\varepsilon_t$

Е [Y_{T}] знак равно β_{0} + Е [ε_{T}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Эта модель не такая сексуальная, как оригинальная, на самом деле она довольно глупая. Тем не менее, это законная модель. Например, вы можете запустить ANOVA.

$\beta_0=E[y_t]$

— Аксакал
источник