Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании


7
Выбор переменных для включения в модель множественной линейной регрессии
В настоящее время я работаю над созданием модели с использованием множественной линейной регрессии. После того, как я возился с моей моделью, я не уверен, как лучше определить, какие переменные оставить, а какие удалить. Моя модель началась с 10 предикторов для DV. При использовании всех 10 предикторов четыре считались значимыми. Если …


5
Обнаружение значимых предикторов из множества независимых переменных
В наборе данных из двух непересекающихся групп населения (пациенты и здоровые, всего ) я хотел бы найти (из независимых переменных) значимые предикторы для непрерывной зависимой переменной. Корреляция между предикторами присутствует. Я заинтересован в том, чтобы выяснить, связан ли какой-либо из предикторов с зависимой переменной «в реальности» (а не с максимально …

3
Почему выбор переменных необходим?
Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая: Коэффициенты смещены от нуля. Слишком малые стандартные ошибки и слишком узкие доверительные интервалы. Проверьте статистику и p-значения, которые не имеют объявленного значения. Оценки соответствия модели, которые являются …

6
Процедура выбора переменной для двоичной классификации
Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем зафиксировать обозначения для согласованности: для пусть { x i 1 , …

3
Как бороться с мультиколлинеарностью при выборе переменных?
У меня есть набор данных с 9 непрерывными независимыми переменными. Я пытаюсь выбрать среди этих переменных, чтобы подогнать модель к одной процентной (зависимой) переменной Score. К сожалению, я знаю, что между несколькими переменными будет серьезная коллинеарность. Я пытался использовать stepAIC()функцию в R для выбора переменных, но этот метод, как ни …

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

5
Что может привести к тому, что PCA ухудшит результаты классификатора?
У меня есть классификатор, по которому я делаю перекрестную проверку, а также около сотни функций, по которым я делаю предварительный выбор, чтобы найти оптимальные комбинации функций. Я также сравниваю это с проведением тех же экспериментов с PCA, где я беру потенциальные особенности, применяю SVD, преобразую исходные сигналы в новое координатное …

3
Зачем использовать оценки Лассо над оценками OLS для Лассо-идентифицированного подмножества переменных?
Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 …

6
Точность теста выше, чем обучение. Как интерпретировать?
У меня есть набор данных, содержащий не более 150 примеров (разделенных на обучение и тестирование) со многими функциями (более 1000). Мне нужно сравнить классификаторы и методы выбора функций, которые хорошо работают с данными. Итак, я использую три метода классификации (J48, NB, SVM) и 2 метода выбора объектов (CFS, WrapperSubset) с …

3
Стабильность модели при решении большой проблемы , small
Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для объяснения результата и помощи в построении …

2
Лучший подход для выбора модели байесовской или перекрестной проверки?
При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика …

2
Какое свойство оценки у оракула?
Какое свойство оценки у оракула ? Для каких целей моделирования имеет значение свойство оракула (предиктивный, объяснительный, ...)? И теоретически строгие, и (особенно) интуитивные объяснения приветствуются.

1
Почему LASSO не находит мою идеальную пару предикторов в высокой размерности?
Я провожу небольшой эксперимент с регрессией LASSO в R, чтобы проверить, сможет ли она найти идеальную пару предикторов. Пара определяется следующим образом: f1 + f2 = исход Результатом здесь является предопределенный вектор, называемый «возраст». F1 и f2 создаются путем взятия половины вектора возраста и установки остальных значений в 0, например: …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.