Выбор k узлов в регрессионном сглаживающем сплайне, эквивалентном k категориальным переменным?

9

Я работаю над моделью прогнозируемой стоимости, в которой возраст пациента (целое число, измеренное в годах) является одной из переменных предиктора. Сильная нелинейная связь между возрастом и риском пребывания в больнице очевидна:

введите описание изображения здесь

Я рассматриваю сглаженный сплайн сглаживания регрессии для возраста пациента. Согласно «Элементам статистического обучения» (Hastie et al, 2009, p. 151), оптимальным расположением узлов является один узел на уникальную величину возраста члена.

Учитывая, что я сохраняю возраст как целое число, является ли штрафной сплайн сглаживания эквивалентным выполнению регрессии гребня или лассо с 101 отдельной переменной показателя возраста, по одной на возрастное значение, найденное в наборе данных (минус один для справки)? После этого избегается чрезмерной параметризации, поскольку коэффициенты по каждому возрастному показателю сокращаются до нуля.

— RobertF
источник

Ваше предложение по показателям возраста + усадка по сути то же самое, что

— сплайны

Было бы полезно, если бы вы указали, каковы другие прогнозирующие переменные, как один из предложенных ответов, если вы контролируете причину поступления, у вас может быть совсем другой график.

— seanv507

11

Отличный вопрос Я полагаю, что ответ на вопрос, который вы задаете - «это штрафной сглаживающий сплайн, эквивалентный выполнению регрессии гребня или лассо», - да. Есть ряд источников, которые могут предоставить комментарии и перспективы. Одним из мест , с которого вы можете начать, является ссылка на PDF . Как отмечено в примечаниях:

«Подгонка модели сглаживающих сплайнов сводится к выполнению формы регрессии гребня на основе естественных сплайнов».

Если вы ищете что-то общее для чтения, вам, возможно, понравится эта превосходная статья о наказанных регрессиях: мост против лассо . Это может помочь ответить на вопрос о том, является ли штрафованный сглаживающий сплайн точно эквивалентным, хотя он обеспечивает более общую перспективу. Я нахожу это интересным, поскольку они сравнивали различные методы друг с другом, в частности, новую модель мостовой регрессии с LASSO, а также регрессию хребта.

$L = (y - f)^T W (y - f) + \lambda c^T \Sigma c$ $c$ $(X^T W X + \lambda \Sigma) c = X^T W y$

— Натаниэль пейн
источник

Не беспокойся @RobertF. Хорошего вечера.

— Натаниэль Пейн

1

Ссылка на ссылку PDF в пункте 1 не работает.

— Jthorpe

3

Я не уверен, что вы действительно хотите так много узлов, учитывая сюжет.

Похоже, у вас могут быть небольшие образцы в определенном возрасте; пик на 74 и значения 0 на нижнем и верхнем уровнях не имеют большого смысла.

Учитывая авторитет источника вашего сайта, возможно, вы хотите использовать ограниченные кубические сплайны с гораздо меньшим числом узлов?

— Питер Флом
источник

1

Спасибо, Питер. Да, количество маленьких людей очень мало для молодых и старых. Использование такого большого количества узлов кажется нелогичным, когда я впервые прочитал ESL, я сделал двойной умственный вывод, что размещение узла на каждом наблюдении минимизирует штрафную остаточную сумму квадратов. Я полагаю, что доказательство заключается в том, что ограниченный кубический сплайн или штрафной сплайн сглаживания лучше работает при прогнозировании моей переменной ответа в тестовом наборе данных.

— RobertF

0

Я опаздываю к этому обсуждению, но посмотрите на диаграмму данных ... что кажущаяся резкость в данных за 70 лет не является истинным отражением риска, связанного с возрастом, это симптом редких данных и некоторой случайности.

Вы не хотели бы моделировать это, используя один узел в год, что, несомненно, привело бы к переоснащению шума.

Кроме того, вы найдете совершенно другую модель, если вы посмотрите на женщину против мужчины. Большая часть пика в возрасте 15-30 лет будет акушерством.

— Даг Дам
источник

Привет, Даг. Правильно, за 70 лет определенно меньше наблюдений. Штрафная модель одного года на сплайн-узел, скорее всего, снизит коэффициенты 70+ до нуля. Цель здесь состоит в том, чтобы заменить ручной выбор размещения узлов автоматическим процессом, который наилучшим образом соответствует нелинейным отношениям между возрастом и IP, особенно полезен в прогностической модели.

— RobertF