Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

8
Алгоритмы автоматического выбора модели
Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java). Методология, которую я имею в …

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Выбор функции и перекрестная проверка
Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с использованием корреляции с метками классов), выполненный вне оценки производительности модели с использованием …

6
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении
Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я теоретически смогу применить …

3
Почему Лассо обеспечивает Выбор Переменных?
Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1 \le t , тогда как для гребня это ||β||2≤t||β||2≤t||\beta||_2 \le t …

6
Нужен ли выбор переменных для прогнозного моделирования в 2016 году?
Этот вопрос был задан в CV несколько лет назад, и кажется, что стоит сделать репост в свете 1) лучшей вычислительной технологии на порядок (например, параллельные вычисления, HPC и т. Д.) И 2) более новой техники, например [3]. Сначала немного контекста. Давайте предположим, что целью является не проверка гипотез, не оценка …

9
Каковы недостатки использования лассо для выбора переменных для регрессии?
Из того, что я знаю, использование лассо для выбора переменных решает проблему коррелированных входных данных. Кроме того, поскольку он эквивалентен регрессии наименьшего угла, он не медленный в вычислительном отношении. Тем не менее, многие люди (например, те, кого я знаю, занимаюсь био-статистикой), все еще предпочитают пошаговый или поэтапный выбор переменных. Есть …

3
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?
В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования переменной?

2
Более определенное обсуждение выбора переменных
Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить …

3
Использование анализа основных компонентов (PCA) для выбора функций
Я новичок в выборе функций, и мне было интересно, как вы будете использовать PCA для выбора функций. Вычисляет ли PCA относительную оценку для каждой входной переменной, которую можно использовать для фильтрации неинформативных входных переменных? По сути, я хочу иметь возможность упорядочивать исходные элементы данных по отклонениям или количеству содержащейся информации.

3
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?
Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?

6
Особенности классификации временных рядов
Я рассматриваю проблему (мультиклассовой) классификации на основе временных рядов переменной длины , то есть найти функцию через глобальное представление серии времени с помощью набора выбранных функций фиксированного размера зависящего от , а затем используйте стандартные методы классификации для этого набора функций. Я не заинтересован в прогнозировании, то есть в прогнозированииf …

5
Как интерпретировать весовые характеристики SVM?
Я пытаюсь интерпретировать переменные веса, заданные путем подбора линейного SVM. (Я использую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не могу найти ничего в документации, в которой конкретно указано, как эти веса рассчитываются или интерпретируются. Знак веса имеет какое-либо отношение к классу?

5
Использование LASSO из пакета lars (или glmnet) в R для выбора переменных
Извините, если этот вопрос встречается немного базовым. Я хочу использовать выбор переменных LASSO для модели множественной линейной регрессии в R. У меня есть 15 предикторов, один из которых является категориальным (вызовет ли это проблему?). После установки моих и я использую следующие команды:ИксИксxYYy model = lars(x, y) coef(model) Моя проблема, когда …

8
Когда следует включать переменную в регрессию, несмотря на то, что она не является статистически значимой?
Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.