Статистика и большие данные pca

1

У меня есть набор данных, состоящий из 15K помеченных образцов (из 10 групп). Я хочу применить уменьшение размерности к двум измерениям, которые бы учитывали знание меток. Когда я использую «стандартные» неконтролируемые методы уменьшения размерности, такие как PCA, график рассеяния, кажется, не имеет ничего общего с известными метками. У того, что …

13 machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

1

Что такое «повернутые» и «не повернутые» главные компоненты, учитывая, что PCA всегда вращает оси координат?

Насколько я понимаю, главные компоненты получаются вращением осей координат, чтобы выровнять их по направлениям максимальной дисперсии. Тем не менее, я продолжаю читать о «непроверенных главных компонентах», и мое программное обеспечение для статистики (SAS) дает мне не только повернутые, но и основные компоненты, повернутые с помощью варимакса. Здесь я запутался: когда …

13 pca terminology factor-rotation

2

В чем разница между выбором объектов и уменьшением размерности?

Я знаю, что как выбор элементов, так и уменьшение размерности направлены на уменьшение количества элементов в исходном наборе элементов. Какая разница между ними, если мы делаем одно и то же в обоих?

13 machine-learning pca feature-selection dimensionality-reduction

1

Как интерпретировать загрузки PCA?

Читая о PCA, я натолкнулся на следующее объяснение: Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту. Мы находим первые два основных компонента, которые фиксируют 90% изменчивости данных и интерпретируют их …

13 pca

3

Пошаговое внедрение PCA в R с использованием учебника Линдси Смит

Я работаю в R с помощью превосходного учебника по PCA Линдси и Смита, и застреваю на последнем этапе. Сценарий R, приведенный ниже, выводит нас на этап (на стр.19), на котором исходные данные восстанавливаются из (в данном случае, единственного) основного компонента, который должен давать прямую линию вдоль оси PCA1 (учитывая, что …

13 r pca

2

Выбор компонентов PCA, которые разделяют группы

Я часто использовал для диагностики своих многомерных данных с использованием PCA (опускаются данные с сотнями тысяч переменных и десятками или сотнями выборок). Данные часто приходят из экспериментов с несколькими категориальными независимыми переменными, определяющими некоторые группы, и мне часто приходится проходить через несколько компонентов, прежде чем я смогу найти те, которые …

13 pca linear-model r-squared discriminant-analysis

3

Как вычислить повернутые варимаксом главные компоненты в R?

Я запустил PCA на 25 переменных и выбрал лучшие 7 компьютеров, используя prcomp. prc <- prcomp(pollutions, center=T, scale=T, retx=T) Затем я сделал ротацию варимакса для этих компонентов. varimax7 <- varimax(prc$rotation[,1:7]) А теперь я хочу, чтобы varimax вращал данные, повернутые PCA (поскольку они не являются частью объекта varimax - только матрица …

13 r pca factor-rotation

2

Для случайной матрицы разве SVD не должен вообще ничего объяснять? Что я делаю неправильно?

Если бы я построил двумерную матрицу, состоящую полностью из случайных данных, я ожидал бы, что компоненты PCA и SVD по существу ничего не объясняют. Вместо этого кажется, что первый столбец SVD, кажется, объясняет 75% данных. Как это может быть? Что я делаю неправильно? Вот сюжет: Вот код R: set.seed(1) rm(list=ls()) …

13 r pca svd

3

СПС по многомерным текстовым данным до классификации случайных лесов?

Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?

13 classification pca random-forest dimensionality-reduction high-dimensional

3

Действительно ли компоненты PCA представляют собой процент дисперсии? Могут ли они составить более 100%?

«Машинное обучение для хакеров» О'Рейли говорит, что каждый основной компонент представляет собой процент дисперсии. Я процитировал соответствующую часть страницы ниже (глава 8, с.207). Говоря с другим экспертом, они согласились, что это процент. Однако 24 компонента составляют 133,2095%. Как это может быть? Убедившись в том, что мы можем использовать PCA, как …

13 r pca

2

Могу ли я сделать PCA по повторным мерам по сокращению данных?

У меня есть 3 испытания каждого на 87 животных в каждом из 2 контекстов (некоторые отсутствующие данные; отсутствие отсутствующих данных = 64 животных). В контексте, у меня есть много конкретных мер в (время , чтобы войти, число раз возвращаюсь в убежище, и т.д.), поэтому я хочу , чтобы разработать 2 …

13 repeated-measures pca dimensionality-reduction

5

Уменьшение размерности SVD для временных рядов различной длины

Я использую Singular Value Decomposition в качестве техники уменьшения размерности. Заданные Nвекторы размерностиD идея состоит в том, чтобы представить элементы в преобразованном пространстве некоррелированных измерений, в котором большая часть информации данных содержится в собственных векторах этого пространства в порядке убывания важности. Сейчас я пытаюсь применить эту процедуру к данным временных …

13 time-series machine-learning pca data-transformation multivariate-analysis

1

Пакет GBM против Карет с использованием GBM

Я занимался настройкой модели caret, но затем перезапустил модель, используя gbmпакет. Насколько я понимаю, caretпакет использует gbmи вывод должен быть одинаковым. Тем не менее, только быстрый запуск теста data(iris)показывает несоответствие в модели около 5% с использованием RMSE и R ^ 2 в качестве метрики оценки. Я хочу найти оптимальную производительность …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

1

PCA и оценки компонентов, основанные на сочетании непрерывных и двоичных переменных

Я хочу применить PCA к набору данных, который состоит из переменных смешанного типа (непрерывных и двоичных). Чтобы проиллюстрировать процедуру, я вставил минимальный воспроизводимый пример в R ниже. # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2) x3 <- x1 + x2 + rnorm(n) …

13 r pca

3

Является ли оптимизация PCA выпуклой?

Целевой функцией анализа главных компонентов (PCA) является минимизация ошибки восстановления в норме L2 (см. Раздел 2.12 здесь . Другое представление пытается максимизировать дисперсию проекции. У нас также есть отличная статья здесь: Какова целевая функция PCA ? ) Мой вопрос заключается в том, что оптимизация PCA выпуклая? (Я нашел некоторые обсуждения …

12 machine-learning pca optimization convex

Вопросы с тегом «pca»