Вопросы с тегом «pca»

Анализ главных компонентов (PCA) - это метод линейного уменьшения размерности. Он сводит многомерный набор данных к меньшему набору построенных переменных, сохраняя как можно больше информации (как можно больше дисперсии). Эти переменные, называемые основными компонентами, являются линейными комбинациями входных переменных.

2
Интерпретация болтов в анализе главных компонентов
Я наткнулся на этот хороший учебник: Руководство по статистическому анализу с использованием R. Глава 13. Анализ основных компонентов: Олимпийский гепатлон о том, как делать PCA на языке R. Я не понимаю интерпретацию рисунка 13.3: Итак, я строю первый собственный вектор против второго собственного вектора. Что это значит? Предположим, что собственное …

1
Как центрирование влияет на PCA (для SVD и собственного разложения)?
Какое значение имеет центрирование (или де-смысл) ваших данных для PCA? Я слышал, что это облегчает математику или препятствует доминированию переменных на первом компьютере, но я чувствую, что пока не смог твердо понять концепцию. Например, главный ответ здесь. Как центрирование данных избавляет от перехвата в регрессии и PCA? описывает, как не …
30 r  pca  svd  eigenvalues  centering 

1
Выполнение анализа основных компонентов или факторного анализа двоичных данных
У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.

5
Как работать с иерархическими / вложенными данными в машинном обучении
Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Лучшие методы извлечения факторов в факторном анализе
SPSS предлагает несколько методов извлечения факторов: Основные компоненты (что вовсе не факторный анализ) Невзвешенные наименьшие квадраты Обобщенные наименьшие квадраты Максимальная вероятность Основная ось Альфа-факторинг Имиджевый факторинг Не обращая внимания на первый метод, который не является факторным анализом (но анализ основных компонентов, PCA), какой из этих методов является «лучшим»? Каковы относительные …

3
Как выполнить ортогональную регрессию (наименьших квадратов) с помощью PCA?
Я всегда использую lm()в R для выполнения линейной регрессии yyy на xxx . Эта функция возвращает коэффициент ββ\beta такой, что y=βx.y=βx.y = \beta x. Сегодня я узнал об общих наименьших квадратах, и эту princomp()функцию (анализ основных компонентов, PCA) можно использовать для ее выполнения. Это должно быть хорошо для меня (точнее). …

4
Почему Эндрю Нг предпочитает использовать SVD, а не EIG ковариационной матрицы для PCA?
Я изучаю PCA из курса Coursera Эндрю Нг и других материалов. В первом задании Stanford NLP cs224n и в видео лекции Эндрю Нг они проводят разложение по сингулярным значениям вместо разложения по ковариационной матрице по собственным векторам, и Нг даже говорит, что SVD численно более устойчив, чем собственное разложение. Насколько …

1
Есть ли Факторный анализ или PCA для порядковых или двоичных данных?
Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные. Я хотел бы знать, какие виды анализа будут подходящими и …

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Что не так с t-SNE против PCA для уменьшения размеров с использованием R?
У меня есть матрица из 336x256 чисел с плавающей запятой (336 бактериальных геномов (столбцы) x 256 нормализованных частот тетрануклеотидов (ряды), например, каждый столбец добавляет до 1). Я получаю хорошие результаты, когда выполняю анализ с использованием принципного анализа компонентов. Сначала я вычисляю кластеры kmeans на данных, затем запускаю PCA и раскрашиваю …
27 r  pca  tsne 

5
Что может привести к тому, что PCA ухудшит результаты классификатора?
У меня есть классификатор, по которому я делаю перекрестную проверку, а также около сотни функций, по которым я делаю предварительный выбор, чтобы найти оптимальные комбинации функций. Я также сравниваю это с проведением тех же экспериментов с PCA, где я беру потенциальные особенности, применяю SVD, преобразую исходные сигналы в новое координатное …

4
Минимальный размер выборки для PCA или FA, когда основной целью является оценка только нескольких компонентов?
Если у меня есть набор данных с наблюдениями и переменными (измерениями), и, как правило, мало ( ), и может варьироваться от маленького ( ) до, возможно, гораздо большего ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50nNnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 …

1
Почему PCA чувствителен к выбросам?
В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.

1
Какая норма ошибки восстановления минимизируется матрицей аппроксимации низкого ранга, полученной с помощью PCA?
Учитывая приближение PCA (или SVD) матрицы с матрицей , мы знаем , что является лучшим низкоразрядным приближением .XXXX^X^\hat XX^X^\hat XXXX Это в соответствии с индуцированной нормой∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (т. Е. Самой большой нормой собственных значений) или в соответствии с нормой Фробениуса ?∥⋅∥F∥⋅∥F\parallel \cdot \parallel_F

7
Тестирование на линейную зависимость среди столбцов матрицы
У меня есть корреляционная матрица возвращений безопасности, чей определитель равен нулю. (Это немного удивительно, поскольку выборочная корреляционная матрица и соответствующая ковариационная матрица теоретически должны быть положительно определенными.) Моя гипотеза состоит в том, что по крайней мере одна ценная бумага линейно зависит от других ценных бумаг. Есть ли в R функция, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.