AIC регрессии гребня: степени свободы в зависимости от количества параметров

Я хочу рассчитать AICc модели регрессии гребня. Проблема в количестве параметров. Для линейной регрессии большинство людей предполагают, что число параметров равно количеству оценочных коэффициентов плюс сигма (дисперсия ошибки).

Когда дело доходит до регрессии гребня, я читал, что след матрицы шляп - степень свободы (df) - просто используется как число параметров в формуле AIC (например, здесь или здесь ).

Это верно? Могу ли я просто использовать df для расчета AICc? Могу ли я просто добавить +1 к df для учета дисперсии ошибок?

— юлианский
источник

Мне нравится этот вопрос, потому что общие входные данные для AICc - это RSS, k и n, но он, как правило, не выбирает надежные модели вместо моделей с наименьшей ошибкой для одного и того же числа параметров. Если вы используете один и тот же подход подбора для моделей-кандидатов и подходите для одних и тех же данных, то выбор модели - это выбор модели. Мне нравится вопрос о том, как вы измеряете теоретико-информационное соответствие наилучшим образом с той же моделью и данными, но с использованием различных типов соответствия, таких как ошибка наименьших квадратов и потеря Хьюбера.

— EngrStudent

@EngrStudent, просто небольшая заметка: RSS является частным случаем нормальной вероятности. Если предполагается другое (ненормальное) распределение, AIC будет содержать не RSS, а логарифмическую вероятность модели. Кроме того, типы соответствия : вы имеете в виду функции потерь, по которым оценивается модель, или функцию потерь, используемую для подгонки модели, или еще что-то еще?

— Ричард Харди

См .: web.mit.edu/lrosasco/www/publications/model_focm.pdf

— kjetil b halvorsen

@RichardHardy - Вы правы в отношении нормальной вероятности! На практике центральная предельная теорема переоценивается. В данном случае это означало то же самое, когда я сказал «подходящая функция», а вы сказали «функция потерь». Я думаю о наименьших квадратах в терминах первых псевдообратных и метрик ошибок. Это «последовательность обучения» артефакт в моих процессах мышления и общения.

— EngrStudent

@EngrStudent, спасибо. Также обратите внимание, что я предложил два варианта использования функции потерь: подгонка (эмпирическая целевая функция, из которой получена оценка) и оценка (теоретическая целевая функция, которую мы хотим оптимизировать).

— Ричард Харди

AIC и регрессия гребня могут быть сделаны совместимыми, когда сделаны определенные предположения. Однако не существует единого метода выбора усадки для регрессии гребня, поэтому нет общего метода применения AIC к нему. Хребетная регрессия является подмножеством тихоновской регуляризации . Есть много критериев, которые можно применять для выбора сглаживающих факторов для регуляризации Тихонова, например, см. Это . Чтобы использовать AIC в этом контексте, существует документ, в котором сделаны довольно конкретные предположения относительно того, как выполнить эту регуляризацию, выбор параметра регуляризации на основе информационной сложности для решения плохо обусловленных обратных задач . В частности, это предполагает

«В статистической структуре ... выбирая значение параметра регуляризации α и используя метод максимального штрафного правдоподобия (MPL) .... Если мы рассмотрим некоррелированный гауссов шум с дисперсией и используем штраф сложная норма, см. ссылку выше , решение MPL такое же, как и для регуляризованного решения Тихонова (1963). " $\sigma ^2$ $p(x) =$

Тогда возникает вопрос: должны ли быть сделаны эти предположения? Вопрос о необходимых степенях свободы является вторичным по отношению к вопросу о том, используются ли AIC и регрессия гребня в согласованном контексте. Я хотел бы предложить прочитать ссылку для деталей. Я не избегаю вопроса, просто можно использовать множество вещей в качестве целевых объектов, например, можно использовать коэффициент сглаживания, который оптимизирует сам AIC . Итак, один хороший вопрос заслуживает другого: «Зачем беспокоиться о AIC в контексте хребта?» В некоторых контекстах регрессии гребня трудно понять, как AIC можно сделать актуальным. Так , например, гребень регрессия была применена для того , чтобы минимизировать относительное распространение ошибок в , то есть, мин $b$ $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ гамма-распределения (GD), заданного

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

согласно этой статье . В частности, эта трудность возникает потому , что в этой работе, то есть, по сути, Субъективная U NDER на Время C Urve (ППК) , который оптимизирован, а не максимального правдоподобия (ML) в благости подходит между измеренными временными выборками. Чтобы было понятно, это сделано потому, что AUC является некорректным интегралом, и, в противном случае, например, при использовании ML, подбор гамма-распределения будет недостаточно устойчивым. Таким образом, для этого конкретного приложения максимальное правдоподобие, то есть AIC, на самом деле не имеет значения. (Говорят, что AIC используется для прогнозирования, а BIC - для пригодности. Однако прогнозирование и соответствие подходят только косвенным образом для надежной оценки AUC.) $[0,\infty)$ $[t_1,t_n]$

Что касается ответа на вопрос , то первая ссылка в тексте вопроса гласит : «Главное отметить, что является убывающей функцией [ Sic , коэффициент сглаживания] с [ Sic , эффективное число параметры см. в приведенной ниже трассировке матрицы] в и в . " Это означает, что равно количеству параметров минус число оцененных величин, когда нет сглаживания, что также, когда регрессия такая же, как у наименьших квадратов, и уменьшается до нуля. $df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ поскольку коэффициент сглаживания увеличивается до . Обратите внимание, что для бесконечного сглаживания подгонка представляет собой плоскую линию независимо от того, какая функция плотности подгоняется. Наконец, точное число является функцией. $\infty$ $df$

«Можно показать, что ), где { } - собственные значения . Интересно, что та же ссылка определяет как след шляпной матрицы, см. def . $df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

— деревенщина
источник