Вопросы с тегом «dimensionality-reduction»

Относится к методам сокращения большого количества переменных или измерений, охватываемых данными, до меньшего числа измерений, сохраняя при этом как можно больше информации о данных. Известные методы включают PCA, MDS, Isomap и т. Д. Два основных подкласса методов: извлечение признаков и выбор функций.

3
Отношения между СВД и СПС. Как использовать SVD для выполнения PCA?
Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных XИкс\mathbf X . Как это работает? Какова связь между этими двумя подходами? Какая связь между СВД и СПС? Или, другими словами, как использовать …

1
Как обратить вспять PCA и восстановить исходные переменные из нескольких основных компонентов?
Анализ основных компонентов (PCA) может использоваться для уменьшения размерности. После такого уменьшения размерности, как можно приблизительно восстановить исходные переменные / характеристики из небольшого числа главных компонентов? В качестве альтернативы, как можно удалить или удалить несколько основных компонентов из данных? Другими словами, как обратить вспять PCA? Учитывая, что PCA тесно связан …

11
Объясните ребенку «Проклятие размерности»
Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно. Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда? РЕДАКТИРОВАТЬ: Теперь предположим, что ребенок …

4
PCA и пропорции объяснены
В общем, что подразумевается под тем, чтобы сказать, что доля дисперсии в анализе, подобном PCA, объясняется первым основным компонентом? Может ли кто-то объяснить это интуитивно, но также дать точное математическое определение того, что означает «объяснение отклонений» в терминах анализа главных компонентов (PCA)?Иксxx Для простой линейной регрессии r-квадрат линии наилучшего соответствия …

2
В чем разница между отбеливанием ZCA и отбеливанием PCA?
Меня смущает отбеливание ZCA и нормальное отбеливание (которое получается путем деления главных компонентов на квадратные корни собственных значений PCA). Насколько мне известно, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, где - собственные векторы PCA.UU\mathbf U Каковы виды использования ZCA отбеливания? Каковы различия между нормальным отбеливанием и отбеливанием ZCA?

6
Принципиальный способ свертывания категориальных переменных со многими уровнями?
Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен, но потенциально может иметь десятки различных уровней. Допустим, я хочу использовать майор в качестве …

3
Будет ли PCA работать для логических (двоичных) типов данных?
Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с логическими типами данных, и мне было …

2
Когда t-SNE вводит в заблуждение?
Цитата одного из авторов: t-распределенное стохастическое вложение соседей (t-SNE) - это ( выигрышный ) метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных. Это звучит довольно здорово, но об этом говорит автор. Еще одна цитата автора (относительно вышеупомянутого конкурса): Что вы отобрали у этого конкурса? Всегда сначала …

3
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?
В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель не может создавать полезные группировки. …

1
В чем заключается интуитивная причина ротации в Факторном анализе / PCA и как выбрать подходящую ротацию?
Мои вопросы Какова интуитивная причина ротации факторов в факторном анализе (или компонентов в PCA)? Насколько я понимаю, если переменные почти одинаково загружены в верхних компонентах (или факторах), то, очевидно, трудно дифференцировать компоненты. Таким образом, в этом случае можно использовать вращение, чтобы лучше дифференцировать компоненты. Это верно? Каковы последствия выполнения вращений? …

1
Как PCA поможет с анализом кластеризации k-средних?
Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я хочу понять, на сколько разных групп можно разделить жилые районы и …

1
Уменьшение размерности (SVD или PCA) на большой разреженной матрице
/ edit: далее следите, теперь вы можете использовать irlba :: prcomp_irlba / edit: следите за своим собственным постом. irlbaтеперь имеет аргументы "center" и "scale", которые позволяют использовать его для вычисления основных компонентов, например: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v У меня есть большой набор Matrixфункций, которые я …

5
Как работать с иерархическими / вложенными данными в машинном обучении
Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Как сделать уменьшение размерности в R
У меня есть матрица, где a (i, j) говорит мне, сколько раз я просмотрел страницу j. Есть 27 тысяч человек и 95 тысяч страниц. Я хотел бы иметь несколько «измерений» или «аспектов» в пространстве страниц, которые соответствуют наборам страниц, которые часто просматриваются вместе. Моя конечная цель состоит в том, чтобы …

2
Почему Python scikait-learn LDA не работает правильно и как он вычисляет LDA через SVD?
Я использовал Линейный Дискриминантный Анализ (LDA) из scikit-learnбиблиотеки машинного обучения (Python) для уменьшения размерности, и мне было немного интересно узнать о результатах. Теперь мне интересно, что scikit-learnделает LDA , чтобы результаты выглядели иначе, чем, например, ручной подход или LDA, выполненные в R. Было бы здорово, если бы кто-то мог дать …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.