Я работаю над моделью прогнозируемой стоимости, в которой возраст пациента (целое число, измеренное в годах) является одной из переменных предиктора. Сильная нелинейная связь между возрастом и риском пребывания в больнице очевидна:
Я рассматриваю сглаженный сплайн сглаживания регрессии для возраста пациента. Согласно «Элементам статистического обучения» (Hastie et al, 2009, p. 151), оптимальным расположением узлов является один узел на уникальную величину возраста члена.
Учитывая, что я сохраняю возраст как целое число, является ли штрафной сплайн сглаживания эквивалентным выполнению регрессии гребня или лассо с 101 отдельной переменной показателя возраста, по одной на возрастное значение, найденное в наборе данных (минус один для справки)? После этого избегается чрезмерной параметризации, поскольку коэффициенты по каждому возрастному показателю сокращаются до нуля.