Как я могу оценить стандартные ошибки коэффициента при использовании регрессии гребня?


18

Я использую гребень регрессии на сильно мультиколлинеарных данных. Используя OLS, я получаю большие стандартные ошибки по коэффициентам из-за мультиколлинеарности. Я знаю, что регрессия гребня является способом решения этой проблемы, но во всех реализациях регрессии гребня, на которые я смотрел, нет стандартных ошибок, сообщаемых для коэффициентов. Я хотел бы получить некоторый способ оценить, насколько регрессия гребня помогает, видя, насколько она уменьшает стандартные ошибки конкретных коэффициентов. Есть ли способ оценить их в регрессии гребня?

Ответы:


19

Я думаю, что boostrap будет лучшим вариантом для получения надежных SE. Это было сделано в некоторой прикладной работе с использованием методов усадки, например, анализа данных Консорциума по ревматоидному артриту в Северной Америке с использованием подхода регрессивной логистической регрессии (BMC Proceedings 2009). Есть также хорошая статья от Casella о вычислениях SE с оштрафованной моделью, Penalized Regression, Standard Errors и Bayesian Lassos (Bayesian Analysis 2010 5 (2)). Но они больше озабочены штрафными санкциями лассо и эластикета .

Я всегда думал о регрессии гребня как о способе получить более точные прогнозы, чем стандартная OLS, где модель, как правило, не является парциальной. Для выбора переменных более подходящими являются критерии лассо или эластик , но тогда трудно применить процедуру начальной загрузки (поскольку выбранные переменные будут меняться от одной выборки к другой и даже во внутренней петле кратного сгиба, используемой для оптимизации 1 / 2 параметры); это не относится к регрессии гребня, поскольку вы всегда учитываете все переменные.k12

Я понятия не имею о пакетах R, которые дадут эту информацию. Похоже, он недоступен в пакете glmnet (см. Статью Фридмана в JSS, Пути регуляризации для обобщенных линейных моделей с помощью координатного спуска ). Тем не менее, Джелле Goeman , который является автором штрафуется пакет обсудить этот вопрос тоже. Не могу найти оригинальный PDF в Интернете, поэтому я просто цитирую его слова:

Это очень естественный вопрос - спросить о стандартных ошибках коэффициентов регрессии или других оценочных величин. В принципе, такие стандартные ошибки могут быть легко вычислены, например, с помощью начальной загрузки.

Тем не менее, этот пакет намеренно не предоставляет их. Причина этого заключается в том, что стандартные ошибки не очень значимы для сильно смещенных оценок, например, возникающих из-за штрафных методов оценки. Оштрафованная оценка - это процедура, которая уменьшает дисперсию оценок путем введения существенного смещения. Таким образом, смещение каждой оценки является основным компонентом его среднеквадратичной ошибки, тогда как ее дисперсия может вносить лишь небольшую часть.

К сожалению, в большинстве случаев применения регрессионного наказания невозможно получить достаточно точную оценку смещения. Любые расчеты, основанные на бутстрапе, могут дать только оценку дисперсии оценок. Надежные оценки смещения доступны только при наличии надежных несмещенных оценок, что обычно не имеет место в ситуациях, когда используются штрафные оценки.

Поэтому сообщение о стандартной ошибке оштрафованной оценки рассказывает только часть истории. Это может создать ошибочное впечатление высокой точности, полностью игнорируя неточность, вызванную смещением. Конечно, ошибочно делать заявления о достоверности, которые основаны только на оценке дисперсии оценок, как это делают доверительные интервалы на основе бутстрапа.


2
Спасибо за предоставление этой цитаты. Оригинальная цитата может быть найдена здесь на странице 18.
Франциско Арсео

8

Предполагая, что процесс генерирования данных следует стандартным предположениям, лежащим в основе OLS, стандартные ошибки для регрессии гребня определяются как:

σ2(ATA+ΓTΓ)1ATA(ATA+ΓTΓ)1

Обозначения выше соответствуют вики-обозначениям для регрессии гребня . В частности,

A

σ2

Γ


1
ATAA для этого.
JM не является статистиком

1

ΓTΓλIIλинтегралы и другие обратные задачи. «Обратной проблемой в науке является процесс расчета по совокупности наблюдений причинных факторов, которые их породили: например, вычисление изображения в компьютерной томографии, восстановление источника в акустике или вычисление плотности Земли по измерениям ее гравитации. field. here "SPSS содержит дополнительный код, который дает стандартное отклонение всех параметров, и дополнительные параметры могут быть получены с использованием распространения ошибок, как в приложении к настоящему документу .

Что обычно неправильно понимают в регуляризации Тихонова, так это то, что степень сглаживания очень мало связана с подгонкой кривой, поэтому следует использовать коэффициент сглаживания, чтобы минимизировать ошибку интересующих параметров. Вы должны были бы объяснить намного больше о конкретной проблеме, которую вы пытаетесь решить, чтобы правильно использовать регрессию гребня в некотором действительном контексте обратной задачи, и многие из статей по выбору сглаживающих факторов, а также многие из опубликованных применений регуляризации Тихонова немного эвристический.

Более того, Тихоновская регуляризация является лишь одной из обратных проблемных проблем среди многих. Перейдите по ссылке в журнал Обратные задачи .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.