Вопросы с тегом «dimensionality-reduction»

Относится к методам сокращения большого количества переменных или измерений, охватываемых данными, до меньшего числа измерений, сохраняя при этом как можно больше информации о данных. Известные методы включают PCA, MDS, Isomap и т. Д. Два основных подкласса методов: извлечение признаков и выбор функций.

1
Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?
Являются ли регрессия с пониженным рангом и регрессия главных компонентов просто частными случаями частичных наименьших квадратов? В этом руководстве (Страница 6, «Сравнение целей») утверждается, что когда мы делаем частичные наименьшие квадраты без проецирования X или Y (то есть «не частичные»), оно становится соответственно уменьшенной ранговой регрессией или регрессией главных компонент. …

2
Методы объединения / сокращения категорий в порядковых или номинальных данных?
Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных. Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я часто сталкиваюсь с ситуациями, …

4
Какие переменные объясняют, какие компоненты PCA, и наоборот?
Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные в основном объясняются какими основными компонентами? И наоборот: например, ПК1 или ПК2 в …

3
Выбор гиперпараметров с использованием T-SNE для классификации
В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание стохастических соседей с t-распределением оказалось довольно …

1
Контролируемое уменьшение размерности
У меня есть набор данных, состоящий из 15K помеченных образцов (из 10 групп). Я хочу применить уменьшение размерности к двум измерениям, которые бы учитывали знание меток. Когда я использую «стандартные» неконтролируемые методы уменьшения размерности, такие как PCA, график рассеяния, кажется, не имеет ничего общего с известными метками. У того, что …

2
В чем разница между выбором объектов и уменьшением размерности?
Я знаю, что как выбор элементов, так и уменьшение размерности направлены на уменьшение количества элементов в исходном наборе элементов. Какая разница между ними, если мы делаем одно и то же в обоих?

1
Алгебра LDA. Различающая способность Фишера переменной и линейный дискриминантный анализ
По-видимому, Анализ Фишера направлен на одновременное максимальное разделение между классами, одновременно сводя к минимуму дисперсию внутри класса. Следовательно, полезная мера степени различения переменной определяется диагональной величиной: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Я понимаю , что размер ( p x p) из С ( Б ) и В-класса ( W ) матрицы задается …

3
СПС по многомерным текстовым данным до классификации случайных лесов?
Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?

2
Могу ли я сделать PCA по повторным мерам по сокращению данных?
У меня есть 3 испытания каждого на 87 животных в каждом из 2 контекстов (некоторые отсутствующие данные; отсутствие отсутствующих данных = 64 животных). В контексте, у меня есть много конкретных мер в (время , чтобы войти, число раз возвращаюсь в убежище, и т.д.), поэтому я хочу , чтобы разработать 2 …

1
Объясните шаги алгоритма LLE (локальное линейное вложение)?
Я понимаю, что основной принцип, лежащий в основе алгоритма LLE, состоит из трех этапов. Нахождение окрестности каждой точки данных по некоторой метрике, такой как k-nn. Найти веса для каждого соседа, которые обозначают влияние, которое сосед оказывает на точку данных. Построить низкоразмерное вложение данных на основе вычисленных весов. Но математическое объяснение …

1
Каково значение осей в t-SNE?
В настоящее время я пытаюсь обернуть голову вокруг математики t-SNE . К сожалению, есть еще один вопрос, на который я не могу ответить удовлетворительно: каково реальное значение осей в графике t-SNE? Если бы я выступил с докладом на эту тему или включил бы его в любую публикацию: как бы я …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Как выбрать ядро ​​для ядра PCA?
Какими способами можно выбрать, какое ядро ​​приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие методы, также были бы хорошими.

4
Выполнение PCA только с дистанционной матрицей
Я хочу объединить массивный набор данных, для которого у меня есть только попарные расстояния. Я реализовал алгоритм k-medoids, но его запуск занимает слишком много времени, поэтому я хотел бы начать с уменьшения масштабов моей проблемы путем применения PCA. Тем не менее, единственный способ, которым я знаю, чтобы выполнить этот метод, …

1
Какая польза от t-SNE, кроме визуализации данных?
В каких ситуациях мы должны использовать t-SNE (кроме визуализации данных)? T-SNE используется для уменьшения размерности. Ответ на этот вопрос предполагает, что t-SNE следует использовать только для визуализации, и что мы не должны использовать его для кластеризации. Тогда какая польза от t-SNE?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.