Вопросы с тегом «dimensionality-reduction»

Относится к методам сокращения большого количества переменных или измерений, охватываемых данными, до меньшего числа измерений, сохраняя при этом как можно больше информации о данных. Известные методы включают PCA, MDS, Isomap и т. Д. Два основных подкласса методов: извлечение признаков и выбор функций.

5
Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?
Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X YY∼ XY~ИксY \sim XККkИксИксXYYY Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если v1, v2, . , , vКv1,v2,,,,vКv_1, v_2, ... v_k являются собственными …

2
Как понимать «нелинейный» как «нелинейное уменьшение размерности»?
Я пытаюсь понять различия между методами уменьшения линейной размерности (например, PCA) и нелинейными (например, Isomap). Я не совсем понимаю, что подразумевает (не) линейность в этом контексте. Я прочитал из Википедии, что Для сравнения, если PCA (алгоритм линейного уменьшения размерности) используется для сокращения этого же набора данных в два измерения, результирующие …

3
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?
Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась нейронная сеть, которую я тренирую, и я был очень доволен результатами. …

1
Почему существует только
В PCA, когда число измерений больше (или даже равно) количеству выборок N , почему у вас будет не более N - 1 ненулевых собственных векторов? Другими словами, ранг ковариационной матрицы среди измерений d ≥ N равен N - 1 .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Пример: ваши образцы - это векторизованные изображения размером , …

2
Что такое «регрессия пониженного ранга»?
Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты неизвестны (и должны оцениваться), но известно, что они …

1
T-SNE против MDS
В последнее время я читал некоторые вопросы о t-SNE ( t-распределенное стохастическое вложение соседей ), а также посетил некоторые вопросы о MDS ( многомерном масштабировании ). Они часто используются аналогично, поэтому было бы неплохо задать этот вопрос, поскольку здесь есть много вопросов по обоим по отдельности (или по сравнению с …

3
Спс, когда размерность больше количества образцов
Я столкнулся со сценарием, где у меня есть 10 сигналов на человека на 10 человек (таким образом, 100 выборок), содержащих 14000 точек данных (измерений), которые мне нужно передать в классификатор. Я хотел бы уменьшить размерность этих данных, и PCA, кажется, является способом сделать это. Тем не менее, мне удалось найти …

4
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?
Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это, конечно, проблема, поскольку многие вопросы реального мира включают в себя данные, которые смешаны: например, если мы изучаем автобусы, …

4
Функциональный анализ главных компонентов (FPCA): что это такое?
Функциональный анализ главных компонентов (FPCA) - это то, на что я наткнулся и никогда не мог понять. О чем это все? См. «Обзор функционального анализа главных компонентов», 2011 г. , и я цитирую: PCA сталкивается с серьезными трудностями при анализе функциональных данных из-за «проклятия размерности» (Bellman 1961). «Проклятие размерности» происходит …

1
Как LDA, метод классификации, также служит методом уменьшения размерности, как PCA
В этой статье автор связывает линейный дискриминантный анализ (LDA) с анализом главных компонентов (PCA). С моими ограниченными знаниями я не могу понять, как LDA может быть чем-то похожим на PCA. Я всегда думал, что LDA - это форма алгоритма классификации, похожая на логистическую регрессию. Я буду признателен за помощь в …

5
Существуют ли версии t-SNE для потоковой передачи данных?
Мое понимание t-SNE и приближения Барнса-Хата заключается в том, что все точки данных необходимы для того, чтобы все силовые взаимодействия могли быть рассчитаны одновременно, и каждая точка могла быть скорректирована на 2-й (или более низкой размерности) карте. Существуют ли версии t-sne, которые могут эффективно работать с потоковыми данными? Поэтому, если …

1
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?
Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python sklearn.manifold.TSNE с евклидовой метрикой расстояния по умолчанию.

4
Существует ли «проклятие размерности» в реальных данных?
Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и …

4
«Нормализующие» переменные для SVD / PCA
Предположим, у нас есть NNN измеримых переменных (a1,a2,…,aN)(a1,a2,...,aN)(a_1, a_2, \ldots, a_N) , мы выполняем ряд измерений M>NM>NM > N , а затем хотим выполнить разложение по сингулярным значениям результатов, чтобы найти оси наибольшей дисперсии для MMM точек в NNN мерном пространстве. ( Примечание: предположим , что средства я уже вычитали, …

2
Когда мы объединяем уменьшение размерности с кластеризацией?
Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический анализ) для получения матриц U, S, Vt, выбрал подходящий порог с использованием графика осей и применил …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.