Насколько различны ограниченные кубические сплайны и штрафные сплайны?

Я много читаю об использовании сплайнов в различных регрессионных задачах. В некоторых книгах (например, в линейных моделях Парриметриза Ходжеса ) рекомендуются штрафные сплайны. Другие (например, стратегии регрессионного моделирования Харрелла ) выбирают ограниченные кубические сплайны.

Насколько они отличаются на практике? Часто ли вы получаете существенно отличающиеся результаты от использования одного или другого? Есть ли у того или другого особые преимущества?

regression splines

— Питер Флом
источник

Из моего прочтения две концепции, которые вы просите нас сравнить, представляют собой совершенно разные звери, и для них потребуется сравнение с яблоками и апельсинами. Это делает многие ваши вопросы несколько спорными - в идеале (при условии, что можно записать штраф за волнистость для основы RCS в требуемой форме), вы должны использовать штрафную модель сплайна ограниченной кубической регрессии.

Ограниченные кубические сплайны

$X$

Выбор модели с помощью RCS обычно включает в себя выбор количества узлов и их расположения, причем первый определяет, насколько волнистым или сложным является результирующий сплайн. Если не будут предприняты какие-либо дальнейшие шаги для регуляризации оценочных коэффициентов при подгонке модели, то количество узлов напрямую контролирует сложность сплайна.

Это означает, что пользователю необходимо решить некоторые проблемы при оценке модели, содержащей один или несколько терминов RCS:

Сколько узлов использовать ?,
$X$
Как сравнить модели с разным количеством узлов?

Условия RCS сами по себе требуют вмешательства пользователя для решения этих проблем.

Штрафные сплайны

$X$ $X$

β^{T} S β

$\boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

где - матрица штрафов, а - коэффициенты модели. Затем находят значения коэффициентов, чтобы максимизировать штрафное правдоподобие ceriterion $\boldsymbol{S}$ $\boldsymbol{\beta}$ $\mathcal{L}_p$

L_{p} = L - λ β^{T} S β

$\mathcal{L}_p = \mathcal{L} - \lambda \boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

где - логарифмическая правдоподобие модели, а - параметр гладкости, который определяет, как сильно штрафовать за волнистость сплайна. $\mathcal{L}$ $\lambda$

Поскольку оштрафованное логарифмическое правдоподобие может быть оценено в терминах коэффициентов модели, подгонка этой модели эффективно становится проблемой при поиске оптимального значения при обновлении коэффициентов во время поиска этого оптимального . $\lambda$ $\lambda$

$\lambda$ может быть выбран с использованием перекрестной проверки, обобщенной перекрестной проверки (GCV) или критериев предельного правдоподобия или ограниченного предельного правдоподобия. Последние два эффективно преобразовывают модель сплайна в модель смешанных эффектов (идеально гладкие части базиса становятся фиксированными эффектами, а волнистые части базиса являются случайными эффектами, а параметр гладкости обратно связан с дисперсионным членом для случайных эффектов ), что Ходжес рассматривает в своей книге.

Почему это решает проблему того, сколько узлов использовать? Ну, это только отчасти делает это. Это решает проблему отсутствия узла в каждой уникальной точке данных (сглаживающий сплайн), но вам все равно нужно выбрать, сколько узлов или базовых функций использовать. Однако, поскольку штраф сокращает коэффициенты, вы можете избежать выбора столь большого базового измерения, которое, по вашему мнению, необходимо, чтобы оно содержало либо истинную функцию, либо точное приближение к ней, а затем вы позволяете штрафу контролировать, насколько волнистым будет в конечном итоге предполагаемый сплайн. с дополнительной потенциальной волнистостью, доступной в основе, удаляемой или контролируемой штрафом.

сравнение

Штрафные (регрессионные) сплайны и RCS - это совершенно разные понятия. Ничто не мешает вам создать базис RCS и связанный штраф в квадратичной форме, а затем оценить коэффициенты сплайна, используя идеи из штрафной регрессионной модели сплайна.

RCS - это всего лишь один из видов базиса, который вы можете использовать для создания сплайн-базы, а штрафные регрессионные сплайны - это один из способов оценки модели, содержащей один или несколько сплайнов с соответствующими штрафами за волнистость.

Можем ли мы избежать проблем 1., 2. и 3.?

Да, в некоторой степени, с основанием тонкой пластины сплайна (TPS). TPS основа имеет столько базисных функций как уникальные значения данных в . Вуд (2003) показал, что вы можете создать основу сплайна регрессии тонких пластин (TPRS), используя собственное разложение базисных функций TPS и сохраняя только первое наибольшего числа. Вы все еще должны указать $X$ $k$ $k$ количество базисных функций, которое вы хотите использовать, но выбор, как правило, зависит от того, насколько шатким вы ожидаете использование подобранной функции, и какой вычислительный удар вы готовы принять. Также нет необходимости указывать расположение узлов, и штраф сокращает коэффициенты, так что можно избежать проблемы выбора модели, поскольку у вас есть только одна оштрафованная модель, а не много непенализованных с разным количеством узлов.

P-сплайны

Просто, чтобы сделать вещи более сложными, существует тип сплайн-базиса, известный как P-сплайн (Eilers & Marx, 1996)), где часто интерпретируется как «наказанный». P-сплайны являются основой B-сплайнов с штрафом за разницу, применяемым непосредственно к коэффициентам модели. При типичном использовании штраф P-сплайна штрафует квадратные различия между соседними модельными коэффициентами, что, в свою очередь, штрафует волнистость. P-сплайны очень просты в настройке и приводят к разреженной матрице штрафов, что делает их очень пригодными для оценки сплайн-членов в байесовских моделях на основе MCMC (Wood, 2017). $P$

Ссылки

Eilers, PHC и BD Marx. 1996. Гибкое сглаживание со сплайнами и штрафами. Стат. Sci.

Вуд, SN 2003. Тонкая пластина регрессии сплайнов. JR Stat. Soc. Серия B Стат. Methodol. 65: 95–114. DOI: 10.1111 / 1467-9868.00374

Wood, SN 2017. Обобщенные аддитивные модели: введение в R, второе издание, CRC Press.

— Гэвин Симпсон
источник

+6, отличное лечение. Напомни мне через пару дней, если я забуду, и я вознагражу за это.

— gung - Восстановить Монику

Спасибо за это!

— Питер Флом

Щедрость ??????

— kjetil b halvorsen