Регрессия в настройке

Я пытаюсь понять, следует ли использовать регрессию гребня , LASSO , регрессию главных компонентов (PCR) или частичные наименьшие квадраты (PLS) в ситуации, когда имеется большое количество переменных / признаков ( ) и меньшее количество выборок ( ) и моя цель - прогноз. $p$ $n<p$

Это мое понимание:

Ридж-регрессия сжимает коэффициенты регрессии, но использует все коэффициенты, не делая их . $0$
LASSO также сжимает коэффициенты, но также делает их , что означает, что он также может делать выбор переменных. $0$
Регрессия главных компонентов усекает компоненты так, что становится меньше ; это отбросит компоненты. $p$ $n$ $p-n$
Частично наименьший квадрат также создает набор линейных комбинаций входных данных для регрессии, но в отличие от PCR он использует (в дополнение к ) для уменьшения размерности. Основное практическое различие между регрессией ПЦР и PLS заключается в том, что ПЦР часто требует больше компонентов, чем PLS, для достижения той же ошибки прогнозирования ( см. Здесь ). $y$ $X$

Рассмотрим следующие фиктивные данные (реальные данные, с которыми я пытаюсь работать, похожи):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Реализация четырех методов:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

Лучшее описание данных:

, чаще всего ; $p > n$ $p>10n$
Переменные ( и ) коррелируют друг с другом с разной степенью. $X$ $Y$

У меня вопрос, какая стратегия может быть лучше для этой ситуации? Почему?

— Рам Шарма
источник

У меня нет ответа от случая к случаю, но глава 18 « Элементы статистического обучения» посвящена этой теме и, я думаю, охватывает все методы, которые вы упомянули.

— Shadowtalker

Смежный вопрос: регрессия в условиях

(прогноз эффективности лекарственного средства по экспрессии генов с помощью 30k предикторов и ~ 30 образцов)

p ≫ N

$p\gg N$

— говорит амеба Reinstate Monica

@ssdecontrol Спасибо за книгу, которую вы опубликовали. Так полезно

— Кристина

Я думаю, что нет однозначного ответа на ваш вопрос - это зависит от многих ситуаций, данных и того, что вы пытаетесь сделать. Некоторые изменения могут быть или должны быть изменены для достижения цели. Однако следующее общее обсуждение может помочь.

Прежде чем перейти к более продвинутым методам, давайте сначала обсудим базовую модель: регрессия наименьших квадратов (LS) . Есть две причины, по которым оценка параметров методом наименьших квадратов в полной модели неудовлетворительна:

Качество прогноза: оценки наименьших квадратов часто имеют небольшой уклон, но высокую дисперсию. Качество предсказания иногда может быть улучшено путем сжатия коэффициентов регрессии или путем установки некоторых коэффициентов равными нулю. Таким образом, смещение увеличивается, но дисперсия прогноза значительно уменьшается, что приводит к общему улучшению прогноза. Этот компромисс между смещением и дисперсией можно легко увидеть, разложив среднеквадратичную ошибку (MSE). Чем меньше MSE, тем лучше прогноз новых значений.
Интерпретируемость : если доступно много переменных-предикторов, имеет смысл определить те, которые имеют наибольшее влияние, и установить в ноль те, которые не имеют отношения к прогнозу. Таким образом, мы исключаем переменные, которые будут объяснять только некоторые детали, но мы оставляем те, которые допускают основное объяснение переменной ответа.

Таким образом, методы выбора переменных приходят на сцену. При выборе переменных используется только подмножество всех входных переменных, остальное исключается из модели. Наилучшая регрессия поднабора находит подмножество размера для каждого $k$ который дает наименьшее RSS. Эффективным алгоритмом является так называемыйалгоритм «скачки и границы»,который может обрабатывать до или переменных регрессора. С наборами данных больше $k \in \{0, 1, ... , p\}$ $30$ $40$ $40$ Во входных переменных поиск по всем возможным подмножествам становится невозможным. Таким образом, пошаговый выбор вперед и пошаговый выбор назад полезны. Обратный выбор может использоваться только при для того, чтобы иметь хорошо определенную модель. Эффективность вычислений этих методов сомнительна, когда очень высоко. $n > p$ $p$

Во многих ситуациях у нас есть большое количество входных данных (как у вас), часто сильно коррелированных (как в вашем случае). В случае высоко коррелированных регрессоров, МНК приводит к численно нестабильным параметрам , т.е. ненадежным $\beta$ оценкам. Чтобы избежать этой проблемы, мы используем методы, которые используют производные направления ввода. Эти методы дают небольшое количество линейных комбинаций исходных входов которые затем используются в качестве входных данных в регрессии. $z_k, k = 1, 2, ... , q$ $x_j$

Методы отличаются тем, как строятся линейные комбинации. Регрессия главных компонентов (ПЦР) ищет преобразования исходных данных в новый набор некоррелированных переменных, называемых главными компонентами .

$y$ $X$ $y$ $X$ $\beta$ $\gamma$ $\gamma$ $q \le p$ $X$ $y$ $y$

$\lambda \ge 0$ $\lambda$ , тем больше величина усадки. Коэффициенты сокращаются до нуля (и друг к другу).

$\beta$ $\beta$ . Путем наложения ограничения на размер коэффициентов это явление можно предотвратить.

$X$ $p - q$

$Y_i$ Разница между L1 и L2 заключается только в том, что L2 - это сумма квадратов весов, а L1 - просто сумма весов. L1-норма имеет тенденцию производить разреженные коэффициенты и имеет встроенную функцию выбора . L1-норма не имеет аналитического решения, но L2-норма есть. Это позволяет L2-нормальным решениям вычисляться эффективно с вычислительной точки зрения. L2-норма имеет уникальные решения, а L1-норма - нет.

Лассо и $s$ $0$ $s$

$p\gg N$

Анализ основных компонентов - это эффективный метод поиска линейных комбинаций признаков, которые демонстрируют большие различия в наборе данных. Но здесь мы ищем линейные комбинации с высокой дисперсией и значительной корреляцией с результатом. Следовательно, мы хотим поощрить анализ главных компонентов, чтобы найти линейные комбинации характеристик, которые имеют высокую корреляцию с результатами - контролируемыми главными компонентами (см. Страницу 678, Алгоритм 18.1, в книге Элементы статистического обучения). ).

Частичные наименьшие квадраты уменьшают весовые шумы, но не выбрасывают их; в результате большое количество шумных функций может испортить прогнозы. Thresholded PLS можно рассматривать как зашумленную версию контролируемых основных компонентов, и, следовательно, мы не можем ожидать, что она будет работать на практике. Контролируемые главные компоненты могут привести к меньшим ошибкам тестирования, чем Threshold PLS . Тем не менее, он не всегда создает разреженную модель, включающую лишь небольшое количество функций.

$p$

— rdorlearn
источник

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$

Что вы имеете в виду, когда говорите, что «L2-норма имеет уникальные решения, а L1-норма - нет»? Цель лассо выпуклая ...

— Эндрю М