Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

5
Нужно ли нам еще выбирать функции при использовании алгоритмов регуляризации?
У меня есть один вопрос, касающийся необходимости использовать методы выбора признаков (значение важности признаков в случайных лесах или методы выбора однофакторных объектов и т. Д.) Перед запуском алгоритма статистического обучения. Мы знаем, что во избежание переобучения мы можем ввести штраф за регуляризацию весовых векторов. Поэтому, если я хочу сделать линейную …


2
Как имеет смысл делать OLS после выбора переменной LASSO?
Недавно я обнаружил, что в литературе по прикладной эконометрике, когда речь идет о проблемах выбора признаков, нередко выполняется LASSO с последующей регрессией OLS с использованием выбранных переменных. Мне было интересно, как мы можем квалифицировать обоснованность такой процедуры. Это вызовет проблемы, такие как пропущенные переменные? Какие-либо доказательства того, что это более …

1
Что сделать вывод из этого лассо-сюжета (glmnet)
Ниже приведен график glmnet с альфа-значением по умолчанию (1, следовательно, лассо) с использованием mtcarsнабора данных в R с использованием mpgв качестве DV и других в качестве переменных-предикторов. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Что мы можем сделать вывод из этого графика относительно различных переменных, особенно am, cylи wt(красные, черные и светло - голубые линий)? …

2
Значение категориального предиктора в логистической регрессии
У меня проблемы с интерпретацией значений z для категориальных переменных в логистической регрессии. В приведенном ниже примере у меня есть категориальная переменная с 3 классами, и в соответствии со значением z CLASS2 может быть релевантным, а другие нет. Но что это значит? Чтобы я мог объединить другие классы в один? …

1
Что такое «характерное пространство»?
Какое определение для "пространственного объекта"? Например, читая о SVM, я читал о «сопоставлении с пространством объектов». Когда я читал о CART, я читал о «разбиении на функциональное пространство». Я понимаю, что происходит, особенно для CART, но я думаю, что есть какое-то определение, которое я пропустил. Есть ли общее определение «пространственного …

2
Страдает ли LASSO от тех же проблем, что и ступенчатая регрессия?
Пошаговые алгоритмические методы выбора переменных имеют тенденцию выбирать для моделей, которые смещают более или менее каждую оценку в регрессионных моделях ( ββ\beta s и их SE, p-значения , F- статистику и т. Д.), И примерно с такой же вероятностью исключают истинные предикторы, как включают ложные предикторы согласно достаточно зрелой литературе …

2
Скорость, вычислительные затраты PCA, LASSO, эластичная сеть
Я пытаюсь сравнить сложность вычислений / скорость оценки трех групп методов для линейной регрессии, как это различается в Hastie et al. «Элементы статистического обучения» (2-е изд.), Глава 3: Выбор подмножества Методы усадки Методы с использованием производных направлений ввода (PCR, PLS) Сравнение может быть очень грубым, просто чтобы дать некоторое представление. …

1
Парадокс в выборе модели (AIC, BIC, объяснить или предсказать?)
Прочитав книгу Галита Шмуэли «Объяснить или предсказать» (2010), я озадачен очевидным противоречием. Есть три помещения, Выбор модели на основе BIC по сравнению с BIC (конец стр. 300 - начало стр. 301): проще говоря, AIC следует использовать для выбора модели, предназначенной для прогнозирования, в то время как BIC следует использовать для …

4
Как рассчитать количество функций на основе разрешения изображения?
Просто покрыта нелинейная Гипотеза Эндрю Нг из Neural Netowrks, и у нас был вопрос множественного выбора для определения количества функций для изображения разрешения 100x100 из grescale интенсивности. И ответ был 50 миллионов, 555 х 10710710^7 Тем не менее, ранее для 50 х 50 пикселей, серого изображения. количество функций 50х50 (2500) …

5
Изменчивость в результатах cv.glmnet
Я использую, cv.glmnetчтобы найти предикторов. Я использую следующие настройки: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Чтобы убедиться, что результаты воспроизводимы, я set.seed(1). Результаты сильно различаются. Я запустил точно такой же код 100, чтобы увидеть, насколько переменными были результаты. В 98/100 прогонах всегда был выбран один конкретный предиктор (иногда только сам по …

3
Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?
Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или Non-Movie, и использовать числа, которые …

5
Понимание того, какие особенности были наиболее важны для логистической регрессии
Я построил классификатор логистической регрессии, который очень точен в моих данных. Теперь я хочу лучше понять, почему это так хорошо работает. В частности, я хотел бы оценить, какие функции вносят наибольший вклад (какие функции являются наиболее важными) и, в идеале, количественно оценить, насколько каждая функция вносит вклад в точность общей …

3
Вывод после использования Лассо для выбора переменных
Я использую Лассо для выбора объектов в относительно низкой размерности (n >> p). После подбора модели Лассо я хочу использовать ковариаты с ненулевыми коэффициентами, чтобы соответствовать модели без штрафа. Я делаю это, потому что хочу объективных оценок, которые Лассо не может дать мне. Я также хотел бы p-значения и доверительные …

1
В случайном лесу больше% IncMSE лучше или хуже?
После того как я построил (R) модель случайного леса в R, вызов rf$importanceпредоставляет мне две меры для каждой переменной-предиктора, %IncMSEи IncNodePurity. Является ли интерпретация того, что предикторные переменные с меньшими %IncMSEзначениями важнее, чем предикторные переменные с большими %IncMSEзначениями? Как насчет IncNodePurity?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.