B-Сплайны В. С. Полиномы высокого порядка в регрессии


10

У меня нет конкретного примера или задачи. Я просто новичок в использовании b-сплайнов, и я хотел лучше понять эту функцию в контексте регрессии.

Давайте предположим, что мы хотим оценить взаимосвязь между переменной ответа и некоторыми предикторами . Предикторы включают некоторые числовые переменные, а также некоторые категориальные.YИкс1,Икс2,,,,,Иксп

Предположим, что после подбора регрессионной модели значима одна из числовых переменных, например, . Логическим шагом после этого является оценка того , требуются ли полиномы более высокого порядка, например: и x_1 ^ 3 , чтобы адекватно объяснить взаимосвязь без переобучения.Икс1Икс12Икс13

Мои вопросы:

  1. В какой момент вы выбираете между b-сплайнами или простым полиномом более высокого порядка. например, в R:

    y ~ poly(x1,3) + x2 + x3
    

    против

     y ~ bs(x1,3) + x2 + x3
    
  2. Как вы можете использовать графики, чтобы сообщить свой выбор между этими двумя и что произойдет, если это не совсем понятно из графиков (например: из-за огромного количества точек данных)

  3. Как бы вы оценили условия двустороннего взаимодействия между Икс2 и, скажем, Икс3

  4. Как вышеперечисленные изменения для разных типов моделей

  5. Считаете ли вы, что никогда не используйте многочлены высокого порядка и всегда подбираете b-сплайны и наказываете высокую гибкость?


9
Я подробно писал об этом здесь: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Мэтью Друри

Учитывая, насколько хорошо развито mgcv, почему бы не использовать (обобщенные) аддитивные модели. Выбор гладкости автоматический, а логические методы хорошо разработаны.
generic_user

Ответы:


17

Я бы обычно рассматривал только сплайны, а не полиномы. Полиномы не могут моделировать пороговые значения и часто являются нежелательно глобальными, т. Е. Наблюдения в одном диапазоне предиктора оказывают сильное влияние на то, что модель делает в другом диапазоне ( Magee, 1998, The American Statistician и Frank Harrell's Regression Modelling Strategies ). И, конечно, ограниченные сплайны, которые являются линейными вне экстремальных узлов, лучше для экстраполяции или даже интраполяции при экстремальных значениях предикторов.

Один из случаев, когда вы можете захотеть рассмотреть полиномы, - это когда важно объяснить свою модель нетехнической аудитории. Люди понимают полиномы лучше, чем сплайны. (Отредактируйте: Мэтью Друри указывает, что люди могут думать, что они понимают полиномы лучше, чем сплайны. Я не стану сторонником этого вопроса.)

Графики часто не очень полезны при выборе различных способов борьбы с нелинейностью. Лучше сделать перекрестную проверку. Это также поможет вам оценить взаимодействие или найти хорошее наказание.

Наконец, мой ответ не меняется в зависимости от модели, потому что приведенные выше пункты действительны для любой статистической модели или модели ML.


Большое спасибо за ваш ответ, это было очень полезно. Просто быстрый вопрос. Есть ли «современный» способ найти узлы? Мое лучшее предположение было бы: 1) Использовать интуицию, например: если переменная представляет время в месяцах, то использовать узлы каждые 6 или 12? 2) ввести последовательность, которая проходит через диапазон переменной и использовать перекрестную проверку, чтобы найти оптимальные узлы, может быть?
Василис Василиу

8
Люди думают, что они понимают многочлены лучше, чем сплайны.
Мэтью Друри

3
Что касается размещения узлов: перекрестная проверка является одним из подходов, но, если честно, я думаю, что результаты будут весьма нечувствительны, чтобы знать размещение, если узлы размещены разумно и не объединяются слишком много. У Фрэнка Харрелла есть таблица с эвристическим размещением узлов в терминах квантилей распределения предиктора в стратегиях регрессионного моделирования .
Стефан Коласса

1
В то время как ваш ответ в этом контексте полностью действителен, ваше утверждение является очень сильным, учитывая, что многие реальные процессы могут лучше моделироваться полиномами.
Коало

6

В разделе 7.4.5 «Элементы статистического обучения» сказано, что сплайны часто дают лучшие результаты, чем полиномиальная регрессия, потому что:

  • Производит гибкие посадки;
  • Производит более стабильные оценки;
  • Полиномы могут давать нежелательные результаты на границах.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.