Как интерпретировать результаты, когда гребень и лассо по отдельности работают хорошо, но дают разные коэффициенты

Я использую регрессионную модель с Лассо и Риджем (для прогнозирования дискретной переменной результата в диапазоне от 0 до 5). Перед запуском модели я использую SelectKBestметод, scikit-learnчтобы уменьшить набор функций с 250 до 25 . Без первоначального выбора признаков и Лассо, и Ридж уступают более низким показателям точности [что может быть связано с небольшим размером выборки, 600]. Также обратите внимание, что некоторые функции взаимосвязаны.

После запуска модели я вижу, что точность предсказания почти одинакова с Лассо и Риджем. Однако, когда я проверяю первые 10 объектов после упорядочения их по абсолютному значению коэффициентов, я вижу, что перекрытие не более 50%.

То есть, учитывая, что каждый метод назначал разную важность функций, я мог бы иметь совершенно другую интерпретацию на основе выбранной мной модели.

Обычно функции представляют некоторые аспекты поведения пользователя на веб-сайте. Поэтому я хочу объяснить полученные выводы, выделив функции (поведение пользователей) с более сильной предсказательной способностью по сравнению с более слабыми функциями (поведение пользователей). Тем не менее, я не знаю, как двигаться вперед в этой точке. Как мне подходить к интерпретации модели? Например, следует ли объединить оба и выделить перекрывающийся, или я должен пойти с Лассо, поскольку это обеспечивает большую интерпретируемость?

— renakre
источник

(+1) Регуляризацию можно рассматривать как ухудшение оценок отдельных коэффициентов при одновременном улучшении их коллективных показателей при прогнозировании новых ответов. Что именно вы пытаетесь достичь с помощью вашей интерпретации?

— Scortchi - Восстановить Монику

@ Scortchi спасибо за ответ. Я добавил это

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— Renakre

+1 AFAIK отношение между коэффициентами гребня и лямбда не должно быть монотонным, в то время как в лассо это так. Таким образом, при определенных уровнях усадки абсолютные значения коэффициентов в гребне и лассо могут сильно различаться. Сказав это, я был бы признателен, если бы кто-то смог набросать доказательство этого или кратко объяснить его математически

— Лукаш Град,

Убедитесь, что вы сортируете «бета» коэффициенты. См. Stats.stackexchange.com/a/243439/70282 Вы можете получить их, обучаясь стандартизированным переменным или корректируя позже, как описано в ссылке.

— Chris

@ ŁukaszGrad Коэффициенты LASSO не обязательно должны быть монотонными функциями если предикторы коррелированы; см. рисунок 6.6 ISLR для примера.

λ

$\lambda$

— EdM

Хребетная регрессия побуждает все коэффициенты становиться малыми. Лассо побуждает многие / большинство [**] коэффициентов становиться нулевыми, а некоторые - ненулевыми. Они оба снизят точность тренировочного набора, но улучшат прогнозирование в некотором роде:

регрессия гребня пытается улучшить обобщение в тестовом наборе, уменьшая перегрузку
Лассо уменьшит количество ненулевых коэффициентов, даже если это ухудшит производительность как на тренировочных, так и на тестовых наборах

Вы можете получить различные варианты коэффициентов, если ваши данные сильно коррелированы. Итак, вы можете иметь 5 взаимосвязанных функций:

присваивая всем этим признакам небольшие, но ненулевые коэффициенты, регрессия гребня может обеспечить низкие потери на тренировочном наборе, которые могут быть правомерно обобщены для испытательного комплекта
Лассо мог бы выбрать только один из них, который хорошо коррелирует с остальными четырьмя. и нет никаких причин, почему он должен выбрать функцию с самым высоким коэффициентом в версии регрессии гребня

[*] для определения значения «выбрать»: присваивает ненулевой коэффициент, который все еще немного махает рукой, поскольку коэффициенты регрессии гребня будут стремиться к тому, чтобы все они были ненулевыми, но, например, некоторые могут быть похожи на 1e-8 и другие могут быть, например, 0,01

[**] нюанс: как указывает Ричард Харди, для некоторых вариантов использования может быть выбрано значение , что приведет к тому, что все коэффициенты LASSO будут ненулевыми, но с некоторой усадкой $\lambda$

— Хью Перкинс
источник

Хорошие предложения. Хорошей проверкой будет сделать корреляционную матрицу. Неперекрывающиеся переменные могут быть сильно коррелированными.

— Chris

Хороший ответ! Тем не менее, я не уверен, что было бы справедливо предположить, что ridge повсеместно пытается улучшить производительность теста, не говоря об этом лассо. Например, если истинная модель является разреженной (и в подмножестве наших предикторов), мы можем немедленно ожидать, что у лассо будет лучшая производительность теста, чем у ridge

— user795305

Это принцип «ставки на экономию». Например, см. Первый сюжет здесь: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

Сравнение переменных вариантов (LASSO) и коэффициентов регрессии среди нескольких загрузочных выборок данных может хорошо иллюстрировать эти проблемы. С коррелированными предикторами те, которые LASSO выбирает из разных бутстрэпов, могут сильно отличаться, в то же время обеспечивая аналогичную прогностическую эффективность. В идеале, весь процесс построения модели, включая первоначальное сокращение набора функций, должен повторяться на нескольких загрузках для документирования качества процесса.

— EdM

Выбрав 4 из этих признаков с низкими коэффициентами или даже со всеми из них, опять же с небольшими, но ненулевыми коэффициентами, регрессия гребня может снизить потери на тренировочном наборе - регрессия гребня не выбирает переменные. Кроме того, для низких значений lasso выберет все переменные, но сделает некоторую усадку, как и в случае с ridge.

λ

$\lambda$

— Ричард Харди