Я хотел бы найти предикторы для непрерывной зависимой переменной из набора из 30 независимых переменных. Я использую регрессию Лассо, как это реализовано в пакете glmnet в R. Вот некоторый фиктивный код:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Мои вопросы, как интерпретировать вывод:
Правильно ли говорить, что в конечном результате все предикторы, которые показывают коэффициент, отличный от нуля, связаны с зависимой переменной?
Будет ли это достаточным докладом в контексте публикации в журнале? Или предполагается предоставить тест-статистику для значимости коэффициентов? (Контекст - генетика человека)
Разумно ли рассчитывать p-значения или другие тестовые статистические данные, чтобы претендовать на значимость? Как это было бы возможно? Реализуется ли процедура в R?
Будет ли простой график регрессии (точки данных, нанесенные с линейным соответствием) для каждого предиктора подходящим способом визуализации этих данных?
Может быть, кто-то может привести несколько простых примеров опубликованных статей, показывающих использование Лассо в контексте некоторых реальных данных и как сообщить об этом в журнале?
cv
для этапа прогнозирования?