Я использую пакет R, оштрафованный для получения сокращенных оценок коэффициентов для набора данных, где у меня много предикторов и мало известно о том, какие из них важны. После того, как я выбрал параметры настройки L1 и L2 и доволен своими коэффициентами, есть ли статистически обоснованный способ суммирования соответствия модели с чем-то вроде R-квадрата?
Кроме того, я заинтересован в тестировании общей значимости модели (т.е. R² = 0 или все = 0).
Я прочитал ответы на аналогичный вопрос, заданный здесь , но он не совсем ответил на мой вопрос. Там отличный учебник по пакету R , который я использую здесь , и автор Джелла Goeman имел следующее примечание в конце урока относительно доверительных интервалов из оштрафованных моделей регрессии:
Это очень естественный вопрос - спросить о стандартных ошибках коэффициентов регрессии или других оценочных величин. В принципе, такие стандартные ошибки могут быть легко вычислены, например, с помощью начальной загрузки.
Тем не менее, этот пакет намеренно не предоставляет их. Причина этого заключается в том, что стандартные ошибки не очень значимы для сильно смещенных оценок, например, возникающих из-за штрафных методов оценки. Оштрафованная оценка - это процедура, которая уменьшает дисперсию оценок путем введения существенного смещения. Таким образом, смещение каждой оценки является основным компонентом его среднеквадратичной ошибки, тогда как ее дисперсия может вносить лишь небольшую часть.
К сожалению, в большинстве случаев применения регрессионного наказания невозможно получить достаточно точную оценку смещения. Любые расчеты, основанные на бутстрапе, могут дать только оценку дисперсии оценок. Надежные оценки смещения доступны только при наличии надежных несмещенных оценок, что обычно не имеет место в ситуациях, когда используются штрафные оценки.
Поэтому сообщение о стандартной ошибке оштрафованной оценки рассказывает только часть истории. Это может создать ошибочное впечатление высокой точности, полностью игнорируя неточность, вызванную смещением. Конечно, ошибочно делать заявления о достоверности, которые основаны только на оценке дисперсии оценок, как это делают доверительные интервалы на основе бутстрапа.