Предположим, у вас есть две сильно коррелированные предикторные переменные , и предположим, что обе центрированы и масштабированы (что означает ноль, дисперсия 1). Тогда штраф гребня на векторе параметров равен β 2 1 + β 2 2, в то время как штрафной член Лассо равен ∣ β 1 ∣ + ∣ β 2 ∣ . Теперь, так как модель считается высоко коллинеарной, так что x и z более или менее могут заменить друг друга в предсказании Y , так много линейных комбинаций x , z, где мы просто замещаем частичнох , зβ21+ β22∣ β1∣ + ∣ β2|ИксZYИкс, з для z , будет очень похожим в качестве предикторов, например, 0,2 x + 0,8 x , 0,3 x + 0,7 z или 0,5 x + 0,5 zИксZ0,2 х + 0,8 х , 0,3 х + 0,7 з0,5 х + 0,5 збудет примерно так же хорошо, как предсказатели. Теперь рассмотрим эти три примера: штраф Лассо во всех трех случаях равен 1, в то время как штраф гребня отличается, соответственно 0,68, 0,58, 0,5, поэтому штраф гребня предпочтет равное взвешивание коллинеарных переменных, в то время как штраф Лассо не сможет выбрать. Это одна из причин, по которой гребень (или, в более общем смысле, эластичная сеть, представляющая собой линейную комбинацию штрафов лассо и гребня) будет лучше работать с коллинеарными предикторами: когда данные дают мало оснований выбирать между различными линейными комбинациями коллинеарных предикторов, лассо просто «бродить», в то время как гребень имеет тенденцию выбирать равные веса. Это последнее может быть лучшим предположением для использования с будущими данными! И, если это так с текущими данными, может показаться при перекрестной проверке как лучшие результаты с гребнем.
Мы можем рассматривать это в байесовской манере: Ридж и Лассо подразумевают различную априорную информацию, и априорная информация, подразумеваемая хребтом, в таких ситуациях, как правило, более разумна. (Это объяснение здесь я узнал более или менее из книги: «Статистическое обучение с редкостью, лассо и обобщения» Тревора Хасти, Роберта Тибширани и Мартина Уэйнрайта, но в этот момент я не смог найти прямую цитату).