Причина не сокращения срока смещения (перехвата) в регрессии


21

Для линейной модели Yзнак равноβ0+Иксβ+ε сжимающий член всегда равен п(β) .

В чем причина того, что мы не уменьшаем смещение (перехват) члена β0 ? Должны ли мы сократить срок смещения в моделях нейронных сетей?


Библиотечная библиотека для логистической регрессии, используемая в scikit-learn, штрафует термин смещения (я думаю, что это артефакт реализации, смещение обрабатывается как дополнительная входная переменная)
seanv507

Ответы:


33

Элементы статистического обучения Hastie et al. определяет гребень регрессии следующим образом (раздел 3.4.1, уравнение

β^ряdграммезнак равноaрграмммяNβ{Σязнак равно1N(Yя-β0-ΣJзнак равно1пИксяJβJ)2+λΣJзнак равно1пβJ2},
т.е. явно исключить член перехватаβ0 из штрафа за гребень.

Затем они пишут:

[...] обратите внимание, что перехват был исключен из штрафного срока. Наказание за перехват сделало бы процедуру зависящей от происхождения, выбранного для Y ; то есть добавление константы c к каждой из целей y i не просто приведет к сдвигу прогнозов на ту же величину c .β0YсYяc

В самом деле, при наличии члена перехвата, добавление ко всем y i просто приведет кcyi увеличивается на C , а также исоответственновсе предсказанных значений у я также увеличится на с . Это неверно, если перехват оштрафован: β 0 должен будет увеличиться менее чем на c .β0cy^icβ0c

На самом деле, есть несколько приятных и удобных свойств линейной регрессии, которые зависят от наличия правильного (непенализованного) члена-перехвата. Например , среднее значение и среднего значения у я равны, и , следовательно , () квадрат множественного коэффициента корреляции R равен коэффициенту определения R 2 : ( R ) 2 = соз 2 ( у , у ) = | | у | | 2yiy^iRR2см., Например, эту ветку для объяснения:геометрическая интерпретация коэффициента множественной корреляцииRи коэффициента детерминацииR2.

(р)2знак равносоз2(Y^,Y)знак равно| |Y^| |2| |Y| |2знак равнор2,
рр2

Наказание за перехват приведет к тому, что все это больше не будет правдой.


2

Вспомните цель усадки или регуляризации. Это делается для того, чтобы алгоритм обучения не соответствовал учебным данным или, что эквивалентно, не позволяет выбирать произвольно большие значения параметров. Это более вероятно для наборов данных с более чем несколькими примерами обучения при наличии шума (очень интересная дискуссия о наличии шума и его влиянии обсуждается в «Изучение данных» Ясера Абу-Мустафы). Модель, изученная на зашумленных данных без регуляризации, вероятно, будет плохо работать в некоторых невидимых точках данных.

Имея это в виду, представьте, что у вас есть точки 2D данных, которые вы хотите классифицировать по двум классам. Если фиксировать все параметры, кроме смещения, то изменение члена смещения просто сместит границу вверх или вниз. Вы можете обобщить это в пространство более высокого измерения.

Алгоритм обучения не может устанавливать произвольно большие значения для термина смещения, поскольку это может привести к значению валовых потерь (модель не будет соответствовать обучающим данным). Другими словами, учитывая некоторый тренировочный набор, вы (или алгоритм обучения) не можете произвольно отодвинуть плоскость от истинной.

Таким образом, нет причин для сокращения термина смещения, алгоритм обучения найдет хороший без риска переоснащения.

Последнее замечание: я видел в некоторых работах, что при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения. Это может работать для линейно разделяемых данных, поскольку при добавлении большего количества измерений появляется больше возможностей для разделения двух классов.


Можете ли вы дать ссылки на некоторые статьи, в которых говорится, что "при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения"?
чандреш

1

Термин перехвата абсолютно не застрахован от усадки. Общая формулировка «усадка» (т.е. регуляризация) помещает термин регуляризации в функцию потерь, например:

рSS(β)знак равно| |Yя-Иксяβ| |2

реграммULaряZеdLоss(β)знак равнорSS(β)-λе(β)

е(β)λ

βп(β)β0Yзнак равноИксβ+εИкс1's

Теперь я не могу говорить о регуляризации для нейронных сетей. Вполне возможно, что для нейронных сетей вы хотите избежать сокращения термина смещения или иначе спроектировать функцию регуляризованных потерь в отличие от формулировки, которую я описал выше. Я просто не знаю. Но я сильно подозреваю, что веса и условия смещения упорядочены вместе.


2
Это зависит от соглашения, но, например, «Элементы статистического обучения» Hastie et al. определить регрессию гребня так, чтобы перехват не наказывался (см. мой ответ). Я подозреваю, что это может быть более стандартным, чем иначе.
говорит амеба: восстанови Монику

1

Я не уверен, что приведенный выше ответ Дэвида Маркса является совершенно правильным; согласно Эндрю Нг, условно коэффициент смещения / перехвата обычно не регуляризован в линейной регрессии, и в любом случае, регуляризован он или нет, не имеет существенного значения.


1

Я дам самое простое объяснение, а затем расширю.

YTзнак равноεT
Е[εT]знак равноЕ[YT]0 об линейной регрессии. Следовательно, оценочные коэффициенты не будут иметь хороших свойств, таких как непредвзятость.

β

ββ0

YTзнак равноβ0+εT
Е[YT]знак равноβ0+Е[εT]
Е[εT]знак равно0β0знак равноμзнак равноЕ[YT]

Эта модель не такая сексуальная, как оригинальная, на самом деле она довольно глупая. Тем не менее, это законная модель. Например, вы можете запустить ANOVA.

β0знак равноЕ[YT]

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.