Зачем использовать регуляризацию в полиномиальной регрессии вместо понижения степени?


32

При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем игнорировать любую регуляризацию? Таким образом, это не будет соответствовать. Если у меня есть функция высокой емкости вместе с регуляризацией, разве это не то же самое, что функция с низкой емкостью и отсутствие регуляризации?

Ответы:


49

Недавно я сделал небольшое приложение для браузера, которое вы можете использовать, чтобы поиграть с этими идеями: Scatterplot Smoothers (*).

Вот некоторые данные, которые я составил, с полиномиальной подгонкой низкой степени

Quadratic Fit

0.60.850.85

Чтобы избавиться от смещения, мы можем увеличить степень кривой до трех, но проблема остается, кубическая кривая все еще слишком жесткая

Кубическая посадка

Таким образом, мы продолжаем увеличивать степень, но теперь мы сталкиваемся с противоположной проблемой

Десять градусов

Эта кривая отслеживает данные слишком близко и имеет тенденцию к вылету в направлениях, которые не очень хорошо подтверждаются общими закономерностями в данных. Это где регуляризация приходит. С той же кривой степени (десять) и некоторые хорошо выбранные регуляризации

Степень десять Регуляризация

Мы отлично подходим!

Стоит немного сосредоточиться на одном аспекте, хорошо выбранном выше. Когда вы подгоняете полиномы к данным, у вас есть дискретный набор вариантов для степени. Если кривая третьей степени не подходит, а кривая четвертой степени подходит, вам некуда идти в середине. Регуляризация решает эту проблему, так как она дает вам непрерывный диапазон параметров сложности для игры.

Как вы утверждаете, «Мы очень хорошо подходим!». Для меня все они выглядят одинаково, а именно неубедительно. Какой рациональный вы используете, чтобы решить, что хорошо и плохо подходит?

Честная оценка.

Предположение, которое я здесь делаю, состоит в том, что хорошо подогнанная модель не должна иметь заметного рисунка в остатках. Теперь я не планирую остатки, поэтому вам нужно немного поработать, просматривая фотографии, но вы должны использовать свое воображение.

На первом рисунке, с квадратичной кривой, подходящей к данным, я могу видеть следующую картину в остатках

  • От 0,0 до 0,3 они примерно равномерно расположены выше и ниже кривой.
  • От 0,3 до примерно 0,55 все точки данных находятся выше кривой.
  • От 0,55 до 0,85 все точки данных находятся ниже кривой.
  • Начиная с 0.85, они снова все выше кривой.

Я бы назвал это поведение локальным смещением , есть области, где кривая не очень хорошо приближается к условному среднему значению данных.

Сравните это с последним соответствием, с кубическим сплайном. Я не могу выделить области на глаз, где подгонка не выглядит точно так, как будто она проходит точно через центр масс точек данных. Это обычно (хотя и неточно) то, что я имею в виду под хорошей подгонкой.


2

  • Их поведение на границах ваших данных может быть очень хаотичным даже при регуляризации.
  • Они не являются местными в любом смысле. Изменение ваших данных в одном месте может существенно повлиять на подгонку в другом месте.

Вместо этого я, в описанной вами ситуации, рекомендую использовать естественные кубические сплайны вместе с регуляризацией, которые дают лучший компромисс между гибкостью и стабильностью. Вы можете убедиться сами, подгоняя некоторые сплайны в приложении.

Естественный кубический сплайн

(*) Я считаю, что это работает только в Chrome и Firefox из-за моего использования некоторых современных функций JavaScript (и общей лени, чтобы исправить это в Safari и т. Д.). Исходный код здесь , если вы заинтересованы.


3
Спасибо, и ваш браузер великолепен - мне нравятся такие маленькие интерактивные демонстрации!
Карнивавр

@Karnivaurus Спасибо, я рад, что смог помочь. Инструмент было интересно создавать, мне нравится писать javascript:)
Мэтью Друри

3
+6. Хорошая работа написания этого инструмента! Вы получите награду от меня, как только нить станет достаточно взрослой, чтобы назначить ей награду.
говорит амеба, восстанови Монику

4
+1 Это действительно хороший ответ. Один из способов показать нестабильность полиномиальной подгонки высокой степени состоит в том, чтобы построить регрессию высокого порядка с удалением одной точки данных для каждой точки и сравнить ее с решением RCS.
Sycorax сообщает, что восстановит Монику

1
@MatthewDrury "ограниченные кубические сплайны" - извините за это.
Sycorax сообщает, что восстановит Монику

4

Нет, это не то же самое. Сравните, например, многочлен второго порядка без регуляризации с полиномом четвертого порядка с ним. Последние могут устанавливать большие коэффициенты для третьей и четвертой степеней при условии, что это увеличивает точность прогнозирования в соответствии с любой процедурой, используемой для выбора размера штрафа для процедуры регуляризации (возможно, перекрестной проверки). Это показывает, что одно из преимуществ регуляризации состоит в том, что она позволяет автоматически настраивать сложность модели, чтобы найти баланс между переоснащением и недостаточным соответствием.


Но если вы добавите регуляризацию к полиному четвертого порядка, это не позволит использовать всю степень его выразительности. Таким образом, при достаточной регуляризации выразительность будет уменьшена до такой степени, что она будет столь же выразительной, как и полином второго порядка. Нет?
Карнивавр

1
Возможно, если вы заранее установили размер штрафа, но какой в ​​этом смысл? Размер штрафа должен быть выбран на основе данных.
Кодиолог

4

Для многочленов даже небольшие изменения в коэффициентах могут иметь значение для более высоких показателей.

L2


2

Все ответы великолепны, и у меня есть аналогичные симуляции с Мэттом, чтобы дать вам еще один пример, чтобы показать, почему сложная модель с регуляризацией обычно лучше, чем простая модель .

Я провел аналогию с интуитивным объяснением.

  • Случай 1: у вас есть ученик средней школы с ограниченными знаниями (простая модель без регуляризации)
  • Случай 2: у вас есть аспирант, но вы ограничиваете его / ее использование только знаний средней школы для решения проблем. (сложная модель с регуляризацией)

Если два человека решают одну и ту же проблему, обычно аспиранты будут работать лучше, потому что опыт и знания о знаниях.

На рисунке 1 показаны 4 фитинга с одинаковыми данными. 4 фитинга - это линия, парабола, модель 3-го порядка и модель 5-го порядка. Вы можете заметить, что модель 5-го порядка может иметь проблему с переоснащением.

введите описание изображения здесь

С другой стороны, во втором эксперименте мы будем использовать модель 5-го порядка с различным уровнем регуляризации. Сравните последний с моделью второго порядка. (выделены две модели), вы обнаружите, что последняя похожа (примерно такая же сложность модели) на параболу, но немного более гибка в отношении данных.

введите описание изображения здесь


1
«примерно одинаковая сложность модели» ... это визуально «очевидное» сравнение, есть ли математический способ его измерения?
Серебряная
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.