Вопросы с тегом «dimensionality-reduction»

Относится к методам сокращения большого количества переменных или измерений, охватываемых данными, до меньшего числа измерений, сохраняя при этом как можно больше информации о данных. Известные методы включают PCA, MDS, Isomap и т. Д. Два основных подкласса методов: извлечение признаков и выбор функций.

1
Метод Нистроема для аппроксимации ядра
Я читал о методе Nyström для апроксимации ядра низкого ранга. Этот метод реализован в scikit-learn [1] как метод проецирования выборок данных в низкосортное приближение отображения характеристик ядра. Насколько мне известно, данный учебный набор и функция ядра, она генерирует низкокачественного приближение ядро матрицы , применяя SVD к и . n × …


3
Есть ли какое-либо значение в уменьшении размерности набора данных, где все переменные приблизительно ортогональны?
Предположим, у меня есть мерный набор данных, где измерений примерно ортогональны (имеют нулевую корреляцию).NNNNNNN Есть ли какая-либо полезность с точки зрения: Визуализация Представление (для эффективности классификатора) Или другие критерии выполнить уменьшение размерности данных?

8
Визуализация данных больших размеров
У меня есть образцы двух классов, которые являются векторами в многомерном пространстве, и я хочу построить их в 2D или 3D. Я знаю о методах уменьшения размерности, но мне нужен действительно простой и легкий в использовании инструмент (в matlab, python или в готовом .exe). Также мне интересно, будет ли представление …

3
Каковы предположения факторного анализа?
Я хочу проверить, действительно ли я понял [классический, линейный] факторный анализ (ФА), особенно предположения , сделанные до (и, возможно, после) ФА. Некоторые данные должны быть изначально коррелированы, и между ними возможна линейная связь. После проведения факторного анализа данные обычно распределяются (двумерное распределение для каждой пары), и нет никакой корреляции между …

2
В чем преимущество уменьшения размерности предикторов для целей регрессии?
Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи регрессии. Примеры таких методов включают в себя секвированную обратную регрессию, главные гессианские направления, оценку средней дисперсии …

7
Техника сокращения данных для определения типов стран
Я преподаю вводный курс экономической географии. Чтобы помочь моим студентам лучше понять виды стран, которые существуют в современной мировой экономике, и оценить методы сокращения данных, я хочу составить задание, которое создает типологию разных типов стран (например, добавленная стоимость, ожидаемая продолжительность жизни, средняя продолжительность жизни у экспортера природных ресурсов с высоким …

2
Как определить параметры для t-SNE для уменьшения размеров?
Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов. Однако, для t-SNE, я не знаю, сколько итераций, или значения …

3
Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?
Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2 - 17%, на ПК3 - 10%, на ПК4 - 8%, …

2
Почему PCA максимизирует общую дисперсию проекции?
Кристофер Бишоп пишет в своей книге « Распознавание образов и машинное обучение», доказывая, что каждый последовательный главный компонент максимизирует дисперсию проекции в одно измерение после того, как данные были спроецированы в ортогональное пространство для ранее выбранных компонентов. Другие показывают аналогичные доказательства. Однако это только доказывает, что каждый последующий компонент является …

4
Строго говоря, «случайная проекция» не является проекцией?
Текущие реализации алгоритма случайного Проекционного уменьшить размерность выборок данных путем сопоставления их с к с использованием проекции матрицы , элементы которой являются IID из подходящего распределения (например , из ):рdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR Удобно, что существуют теоретические доказательства, показывающие, что это отображение приблизительно сохраняет попарные …

3
Когда вы будете использовать PCA, а не LDA в классификации?
Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с максимальными отклонениями, где данные наиболее распространены (в пределах …

1
Возможна ли крупномасштабная PCA?
Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная матрица является разреженной, центрированная матрица теперь будет более разреженной и, …

1
t-SNE со смешанными непрерывными и двоичными переменными
В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных: евклидово расстояние всегда будет наибольшим / наименьшим между двоичными переменными. …

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.