Вопросы с тегом «pca»

Анализ главных компонентов (PCA) - это метод линейного уменьшения размерности. Он сводит многомерный набор данных к меньшему набору построенных переменных, сохраняя как можно больше информации (как можно больше дисперсии). Эти переменные, называемые основными компонентами, являются линейными комбинациями входных переменных.

2
Обратная ковариационная матрица против ковариационной матрицы в PCA
В PCA, имеет ли значение, если мы выбираем главные компоненты обратной ковариационной матрицы ИЛИ, если мы отбрасываем собственные векторы ковариационной матрицы, соответствующие большим собственным значениям? Это связано с обсуждением в этом посте .

2
Можно ли использовать анализ основных компонентов по ценам на акции / нестационарным данным?
Я читаю пример, приведенный в книге « Машинное обучение для хакеров» . Сначала я подробно остановлюсь на примере, а затем расскажу о своем вопросе. Пример : Принимает набор данных за 10 лет по 25 ценам на акции. Работает PCA на 25 акций. Сравнивает основной компонент с индексом Доу-Джонса. Наблюдает очень …

1
Что подразумевается под PCA, сохраняя только большие попарные расстояния?
В настоящее время я читаю технику визуализации t-SNE, и было упомянуто, что одним из недостатков использования анализа главных компонентов (PCA) для визуализации многомерных данных является то, что он сохраняет только большие попарные расстояния между точками. Значимые точки, которые находятся далеко друг от друга в многомерном пространстве, также будут появляться далеко …

1
Возможна ли крупномасштабная PCA?
Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная матрица является разреженной, центрированная матрица теперь будет более разреженной и, …

1
Почему все компоненты PLS вместе объясняют только часть дисперсии исходных данных?
У меня есть набор данных, состоящий из 10 переменных. Я запустил частичные наименьшие квадраты (PLS), чтобы предсказать одну переменную ответа по этим 10 переменным, извлек 10 компонентов PLS, а затем вычислил дисперсию каждого компонента. По исходным данным я взял сумму дисперсий всех переменных, которая составляет 702. Затем я разделил дисперсию …

1
PCA все еще делается через собственное разложение ковариационной матрицы, когда размерность больше, чем число наблюдений?
У меня есть матрица X размером , содержащая мои N = 20 выборок в D = 100- мерном пространстве. Теперь я хочу написать свой собственный анализ основных компонентов (PCA) в Matlab. Сначала я унижаю X до X 0 .20×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 Я читал из чьего-то кода, что в таких сценариях, где у …
10 pca 

2
Применение PCA для проверки данных в целях классификации
Недавно я узнал о замечательном PCA, и я сделал пример, изложенный в документации scikit-learn . Мне интересно знать, как я могу применить PCA к новым точкам данных для целей классификации. После визуализации PCA в двухмерной плоскости (ось x, y) я вижу, что, вероятно, могу нарисовать линию, чтобы отделить точки данных, …

1
Запутался в визуальном объяснении собственных векторов: как визуально разные наборы данных могут иметь одинаковые собственные векторы?
Многие учебники статистики предоставляют интуитивно понятную иллюстрацию того, каковы собственные векторы ковариационной матрицы: Векторы u и z образуют собственные векторы (ну, собственные оси). Это имеет смысл. Но меня смущает то, что мы извлекаем собственные векторы из корреляционной матрицы, а не необработанные данные. Кроме того, исходные наборы данных, которые весьма различны, …

2
Каковы хорошие показатели для оценки качества соответствия PCA, чтобы выбрать количество компонентов?
Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)? Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько информации мы храним, есть ли другие информационные метрики, которые я могу …

3
Сокращение размеров всегда теряет некоторую информацию?
Как видно из названия, всегда ли уменьшение размеров теряет некоторую информацию? Рассмотрим для примера PCA. Если у меня очень мало данных, я бы предположил, что может быть найдена «лучшая кодировка» (это как-то связано с рангом данных?), И ничего не будет потеряно.

1
Как интерпретировать этот биплот PCA, исходя из опроса, в каких областях люди заинтересованы?
История вопроса: я спросил у сотен участников моего опроса, насколько они заинтересованы в выбранных областях (по пятибалльной шкале Лайкерта, где 1 обозначает «неинтересно», а 5 - «заинтересовано»). Затем я попробовал PCA. Картинка ниже представляет собой проекцию первых двух основных компонентов. Цвета используются для полов, а стрелки PCA являются исходными переменными …

3
Выбор количества основных компонентов для сохранения
Один из методов, который мне предложили, - это посмотреть на график осыпей и проверить наличие «локтя», чтобы определить правильное количество ПК для использования. Но если график не ясен, есть ли у R расчет для определения числа? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Использование эксцесса для оценки значимости компонентов из независимого анализа компонентов
В PCA собственные значения определяют порядок компонентов. В ICA я использую куртоз для получения заказа. Какие существуют общепринятые методы для оценки количества (если у меня есть порядок) компонентов, которые отличаются от предыдущих знаний о сигнале?

2
В Факторном анализе (или в PCA), что означает загрузку фактора больше 1?
Я только что запустил FA, используя наклонное вращение (promax), и элемент дал коэффициент загрузки 1,041 для одного фактора (и коэффициент загрузки -131, -.119 и .065 для других факторов с использованием матрицы шаблонов ) , И я не уверен, что это значит, я думал, что это может быть только между -1 …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.