Каковы преимущества / недостатки использования сплайнов, сглаженных сплайнов и эмуляторов гауссовских процессов?


20

Я заинтересован в изучении (и реализации) альтернативы полиномиальной интерполяции.

Однако мне трудно найти хорошее описание того, как эти методы работают, как они связаны и как они сравниваются.

Буду признателен за ваш вклад в плюсы / минусы / условия, при которых эти методы или альтернативы будут полезны, но некоторых хороших ссылок на тексты, слайды или подкасты будет достаточно.


Это действительно очень интересный вопрос, но может быть (только может быть) более уместным для math.stackexchange.com ?
Штеффен

В «Элементах статистического обучения » Hastie et al. Есть некоторые материалы по сплайнам и сглаживающим сплайнам .
NPE

8
Я думаю, что это совершенно разумный вопрос по статистике вычислений.
csgillespie

@csgillespie: Все, что я знаю о сплайнах и интерполяции, я узнал в числовых / математических лекциях. Следовательно я могу быть немного предвзятым;).
Штеффен

Ответы:


24

Базовая регрессия OLS - очень хороший метод для подгонки функции к набору данных. Однако, простая регрессия подходит только прямой линии , которая является постоянной для всего возможного диапазона . Это может не подходить для данной ситуации. Например, данные иногда показывают криволинейные отношения. Это можно решить путем регрессии Y на преобразование X , f ( X ) . Возможны разные преобразования. В ситуациях , когда связь между X и Y является монотонной , но постоянно сужается вылетевший, журнал преобразованияИксYИксе(Икс)ИксYможет быть использован. Другой популярный выбор - использовать многочлен, в котором новые термины образуются путем возведения в ряд степеней (например, X 2 , X 3 и т. Д.). Эта стратегия проста в реализации, и вы можете интерпретировать подгонку как указание, сколько «изгибов» существует в ваших данных (где количество изгибов равно наибольшей требуемой мощности минус 1). ИксИкс2Икс3

Однако регрессии, основанные на логарифме или показателе ковариации, будут оптимально соответствовать только тогда, когда это является точным характером истинных отношений. Вполне разумно предположить, что существует криволинейная связь между и Y, которая отличается от возможностей, которые предоставляют эти преобразования. Таким образом, мы приходим к двум другим стратегиям. Первый подход - это лесс , серия взвешенных линейных регрессий, вычисленных по движущемуся окну. Этот подход более старый и лучше подходит для исследовательского анализа данных . ИксY

Другой подход заключается в использовании сплайнов. В это простейшая, сплайн новый термин , который относится к только части диапазона . Например, X может варьироваться от 0 до 1, а сплайн-член может варьироваться только от 0,7 до 1. В этом случае 0,7 является узлом . Простой линейный член сплайна будет вычисляться так: X s p l i n e = { 0ИксИкс и будет добавлен к вашей модели,в дополнениек первоначальномутерминуX. Подогнанная модель покажет резкий разрыв на уровне 0,7 с прямой линией от 0 до 0,7, и линия продолжится с другим наклоном от 0,7 до 1. Однако член сплайна не обязательно должен быть линейным. В частности, было определено, что кубические сплайны особенно полезны (то есть,X 3 s p l i n e

ИксsпLяNезнак равно{0если Икс+0,7Икс-+0,7если Икс>+0,7

ИксИксsпLяNе3). Резкого перелома тоже не должно быть. Были разработаны алгоритмы, которые ограничивают подгоночные параметры так, что первая и вторая производные совпадают в узлах, что делает узлы невозможными для обнаружения на выходе. Конечным результатом всего этого является то, что с помощью нескольких узлов (обычно 3-5) в выбранных местах (какое программное обеспечение может определить для вас) можно воспроизвести практически любуюкривая. Более того, степени свободы рассчитываются правильно, поэтому вы можете доверять результатам, что неверно, когда вы сначала смотрите на свои данные, а затем решаете использовать квадратное слагаемое, потому что вы увидели изгиб. Кроме того, все это - просто еще одна (хотя и более сложная) версия базовой линейной модели. Таким образом, все, что мы получаем с линейными моделями, сопровождается этим (например, прогнозы, остатки, доверительные интервалы, тесты и т. Д.). Это существенные преимущества.

Самое простое введение в эти темы, о которых я знаю, это:


6

Онлайн заметки Космы Шализи о его курсе лекций « Расширенный анализ данных с элементарной точки зрения» довольно хороши по этому вопросу, рассматривая вещи с точки зрения, где интерполяция и регрессия - это два подхода к одной и той же проблеме. Я бы особенно обратил ваше внимание на главы о методах сглаживания и сплайнах .


Ваши ссылки могут использовать обновления. Я попробовал, но вы должны проверить, что мои предложенные изменения попадают на страницы, которые вы намеревались.
Грегор
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.