Вопросы с тегом «pca»

Анализ главных компонентов (PCA) - это метод линейного уменьшения размерности. Он сводит многомерный набор данных к меньшему набору построенных переменных, сохраняя как можно больше информации (как можно больше дисперсии). Эти переменные, называемые основными компонентами, являются линейными комбинациями входных переменных.

3
Как спроектировать многомерное пространство в двухмерную плоскость?
У меня есть набор точек данных в N-мерном пространстве. Кроме того, у меня также есть центроид в этом же N-мерном пространстве. Существуют ли какие-либо подходы, которые могут позволить мне проецировать эти точки данных в двумерное пространство, сохраняя информацию об их относительном расстоянии в исходном пространстве. PCA правильный?

2
В чем преимущество уменьшения размерности предикторов для целей регрессии?
Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи регрессии. Примеры таких методов включают в себя секвированную обратную регрессию, главные гессианские направления, оценку средней дисперсии …

3
Практическое пособие по PCA с данными
Поиск в Интернете учебника PCA дает тысячи результатов (даже видео). Многие учебники очень хороши. Но я не могу найти практического примера, где PCA объясняется с использованием некоторых наборов данных, которые я могу использовать для демонстрации. Мне нужен учебник, который предоставляет небольшой набор данных, который легко построить (не 10000 строк данных …

7
Техника сокращения данных для определения типов стран
Я преподаю вводный курс экономической географии. Чтобы помочь моим студентам лучше понять виды стран, которые существуют в современной мировой экономике, и оценить методы сокращения данных, я хочу составить задание, которое создает типологию разных типов стран (например, добавленная стоимость, ожидаемая продолжительность жизни, средняя продолжительность жизни у экспортера природных ресурсов с высоким …

1
В чем разница между summary () и loadings () для объекта princomp () в R?
Пример кода: (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero Я получаю разные результаты от каждого, и я не уверен, что понимаю, в чем разница. Вот вывод: > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion …
11 r  pca 

1
Стрелки базовых переменных в биплоте PCA в R
Рискуя сделать вопрос специфичным для программного обеспечения и из-за его повсеместности и особенностей, я хочу спросить о функции biplot()в R и, более конкретно, о вычислении и построении по умолчанию ее наложенных красных стрелок, соответствующих к базовым переменным. [Чтобы разобраться в некоторых комментариях, изначально опубликованные сюжеты имели скудную проблему с редким …
11 r  pca  biplot 

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Как определить параметры для t-SNE для уменьшения размеров?
Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов. Однако, для t-SNE, я не знаю, сколько итераций, или значения …

3
Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?
Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2 - 17%, на ПК3 - 10%, на ПК4 - 8%, …

4
Анализ основных компонентов и регрессия в Python
Я пытаюсь понять, как воспроизвести в Python какую-то работу, которую я проделал в SAS. Используя этот набор данных , где мультиколлинеарность является проблемой, я хотел бы выполнить анализ основных компонентов в Python. Я смотрел на scikit-learn и statsmodels, но я не уверен, как взять их результаты и преобразовать их в …

2
Почему PCA максимизирует общую дисперсию проекции?
Кристофер Бишоп пишет в своей книге « Распознавание образов и машинное обучение», доказывая, что каждый последовательный главный компонент максимизирует дисперсию проекции в одно измерение после того, как данные были спроецированы в ортогональное пространство для ранее выбранных компонентов. Другие показывают аналогичные доказательства. Однако это только доказывает, что каждый последующий компонент является …

3
Можно ли использовать значения масштабирования в линейном дискриминантном анализе (LDA) для построения объясняющих переменных на линейных дискриминантах?
Используя набор значений, полученных в результате анализа главных компонентов, можно изучить объясняющие переменные, составляющие каждый основной компонент. Возможно ли это и с помощью линейного дискриминантного анализа? Приведенные примеры используют данные «Данные Ириса Эдгара Андерсона» ( http://en.wikipedia.org/wiki/Iris_flower_data_set ). Вот данные радужной оболочки : id SLength SWidth PLength PWidth species 1 5.1 …

3
PCA, ICA и лапласианские собственные карты
Вопрос Я очень заинтересован в методе Лапласовых собственных карт. В настоящее время я использую его для уменьшения размеров моих медицинских данных. Однако я столкнулся с проблемой при использовании метода. Например, у меня есть некоторые данные (спектры сигналов), и я могу использовать PCA (или ICA) для получения некоторых ПК (или микросхем). …
11 pca  ica 

3
Когда вы будете использовать PCA, а не LDA в классификации?
Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с максимальными отклонениями, где данные наиболее распространены (в пределах …

1
Как получить «собственные значения» (проценты объясненной дисперсии) векторов, которые не являются собственными векторами PCA?
Я хотел бы понять, как я могу получить процент дисперсии набора данных не в координатном пространстве, предоставленном PCA, а по отношению к немного другому набору (повернутых) векторов. set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.