Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

2
Выбор функций для проблем кластеризации
Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы. Там я использовал некоторый критерий (то есть random.forest.importance …

6
Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)
Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт назначения, порт источника и т. Д. (Всего 15-20 полей). Я …

4
Лассо в порядке отставания?
Предположим, у меня есть продольные данные вида (у меня есть несколько наблюдений, это просто форма одного). Я заинтересован в ограничениях . Неограниченная эквивалентна взятию с .Σ Σ Y j = α j + j - 1 ∑ ℓ = 1 ϕ ℓ j Y j j - ℓ + ε …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Тест случайной перестановки для выбора функции
Меня смущает анализ перестановок для выбора функций в контексте логистической регрессии. Не могли бы вы дать четкое объяснение теста случайной перестановки и как он применяется к выбору функции? Возможно, с точным алгоритмом и примерами. Наконец, как это можно сравнить с другими методами усадки, такими как лассо или LAR?

4
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?
Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …

2
Можно ли использовать ядро ​​PCA для выбора функций?
Можно ли использовать анализ основных компонентов ядра (kPCA) для скрытого семантического индексирования (LSI) таким же образом, как используется PCA? Я выполняю LSI в R с использованием prcompфункции PCA и извлекаю функции с самыми высокими нагрузками из первых компонентов. Таким образом, я получаю функции, описывающие компонент лучше всего.ККk Я пытался использовать …

3
Использование срединного лака для выбора характеристик
В статье, которую я недавно читал, я обнаружил в своем разделе анализа данных следующее: Затем таблица данных была разбита на ткани и клеточные линии, и две подтаблицы были отдельно отшлифованы по медиане (строки и столбцы были итеративно скорректированы, чтобы иметь медиану 0), прежде чем они были объединены в одну таблицу. …

3
Вычисление лучшего подмножества предикторов для линейной регрессии
Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти оригинальную статью. Кто-нибудь может описать этот метод или, что …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.