Для линейной модели сжимающий член всегда равен .
В чем причина того, что мы не уменьшаем смещение (перехват) члена ? Должны ли мы сократить срок смещения в моделях нейронных сетей?
Для линейной модели сжимающий член всегда равен .
В чем причина того, что мы не уменьшаем смещение (перехват) члена ? Должны ли мы сократить срок смещения в моделях нейронных сетей?
Ответы:
Элементы статистического обучения Hastie et al. определяет гребень регрессии следующим образом (раздел 3.4.1, уравнение
Затем они пишут:
[...] обратите внимание, что перехват был исключен из штрафного срока. Наказание за перехват сделало бы процедуру зависящей от происхождения, выбранного для Y ; то есть добавление константы c к каждой из целей y i не просто приведет к сдвигу прогнозов на ту же величину c .
В самом деле, при наличии члена перехвата, добавление ко всем y i просто приведет к увеличивается на C , а также исоответственновсе предсказанных значений у я также увеличится на с . Это неверно, если перехват оштрафован: β 0 должен будет увеличиться менее чем на c .
На самом деле, есть несколько приятных и удобных свойств линейной регрессии, которые зависят от наличия правильного (непенализованного) члена-перехвата. Например , среднее значение и среднего значения у я равны, и , следовательно , () квадрат множественного коэффициента корреляции R равен коэффициенту определения R 2 : ( R ) 2 = соз 2 ( у , у ) = | | у | | 2см., Например, эту ветку для объяснения:геометрическая интерпретация коэффициента множественной корреляцииRи коэффициента детерминацииR2.
Наказание за перехват приведет к тому, что все это больше не будет правдой.
Вспомните цель усадки или регуляризации. Это делается для того, чтобы алгоритм обучения не соответствовал учебным данным или, что эквивалентно, не позволяет выбирать произвольно большие значения параметров. Это более вероятно для наборов данных с более чем несколькими примерами обучения при наличии шума (очень интересная дискуссия о наличии шума и его влиянии обсуждается в «Изучение данных» Ясера Абу-Мустафы). Модель, изученная на зашумленных данных без регуляризации, вероятно, будет плохо работать в некоторых невидимых точках данных.
Имея это в виду, представьте, что у вас есть точки 2D данных, которые вы хотите классифицировать по двум классам. Если фиксировать все параметры, кроме смещения, то изменение члена смещения просто сместит границу вверх или вниз. Вы можете обобщить это в пространство более высокого измерения.
Алгоритм обучения не может устанавливать произвольно большие значения для термина смещения, поскольку это может привести к значению валовых потерь (модель не будет соответствовать обучающим данным). Другими словами, учитывая некоторый тренировочный набор, вы (или алгоритм обучения) не можете произвольно отодвинуть плоскость от истинной.
Таким образом, нет причин для сокращения термина смещения, алгоритм обучения найдет хороший без риска переоснащения.
Последнее замечание: я видел в некоторых работах, что при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения. Это может работать для линейно разделяемых данных, поскольку при добавлении большего количества измерений появляется больше возможностей для разделения двух классов.
Термин перехвата абсолютно не застрахован от усадки. Общая формулировка «усадка» (т.е. регуляризация) помещает термин регуляризации в функцию потерь, например:
Теперь я не могу говорить о регуляризации для нейронных сетей. Вполне возможно, что для нейронных сетей вы хотите избежать сокращения термина смещения или иначе спроектировать функцию регуляризованных потерь в отличие от формулировки, которую я описал выше. Я просто не знаю. Но я сильно подозреваю, что веса и условия смещения упорядочены вместе.
Я дам самое простое объяснение, а затем расширю.
Эта модель не такая сексуальная, как оригинальная, на самом деле она довольно глупая. Тем не менее, это законная модель. Например, вы можете запустить ANOVA.