Статистика и большие данные feature-selection

2

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы. Там я использовал некоторый критерий (то есть random.forest.importance …

9 r clustering feature-selection unsupervised-learning

6

Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)

Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт назначения, порт источника и т. Д. (Всего 15-20 полей). Я …

9 feature-selection outliers unsupervised-learning feature-construction

4

Лассо в порядке отставания?

Предположим, у меня есть продольные данные вида (у меня есть несколько наблюдений, это просто форма одного). Я заинтересован в ограничениях . Неограниченная эквивалентна взятию с .Σ Σ Y j = α j + j - 1 ∑ ℓ = 1 ϕ ℓ j Y j j - ℓ + ε …

9 feature-selection lasso shrinkage

1

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Тест случайной перестановки для выбора функции

Меня смущает анализ перестановок для выбора функций в контексте логистической регрессии. Не могли бы вы дать четкое объяснение теста случайной перестановки и как он применяется к выбору функции? Возможно, с точным алгоритмом и примерами. Наконец, как это можно сравнить с другими методами усадки, такими как лассо или LAR?

9 regression logistic feature-selection permutation-test shrinkage

4

Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Можно ли использовать ядро PCA для выбора функций?

Можно ли использовать анализ основных компонентов ядра (kPCA) для скрытого семантического индексирования (LSI) таким же образом, как используется PCA? Я выполняю LSI в R с использованием prcompфункции PCA и извлекаю функции с самыми высокими нагрузками из первых компонентов. Таким образом, я получаю функции, описывающие компонент лучше всего.ККk Я пытался использовать …

9 r pca feature-selection kernel-trick

3

Использование срединного лака для выбора характеристик

В статье, которую я недавно читал, я обнаружил в своем разделе анализа данных следующее: Затем таблица данных была разбита на ткани и клеточные линии, и две подтаблицы были отдельно отшлифованы по медиане (строки и столбцы были итеративно скорректированы, чтобы иметь медиану 0), прежде чем они были объединены в одну таблицу. …

9 feature-selection median genetics

3

Вычисление лучшего подмножества предикторов для линейной регрессии

Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти оригинальную статью. Кто-нибудь может описать этот метод или, что …

9 modeling regression multivariable model-selection feature-selection

Вопросы с тегом «feature-selection»