Это очень широкий вопрос, который, я думаю, невозможно охватить всесторонне в одном ответе. Поэтому я думаю, что было бы более полезно предоставить некоторые указатели на соответствующие ответы и / или ресурсы. Это именно то, что я сделаю, предоставив следующую информацию и мои мысли.
Прежде всего, я должен упомянуть превосходное и всеобъемлющее руководство по уменьшению размерности от Burges (2009) от Microsoft Research. Он часто затрагивает аспекты многомерных данных в монографии. Эта работа, относящаяся к уменьшению размерности как уменьшению размера , представляет теоретическое введение в проблему , предлагает таксономию методов уменьшения размерности, состоящих из проективных методов и методов моделирования многообразия , а также предоставляет обзор нескольких методов в каждой категории.
Рассмотренные методы « проективного преследования» включают независимый компонентный анализ (ICA) , анализ главных компонентов (PCA) и его вариации, такие как PCA ядра и вероятностный PCA , канонический корреляционный анализ (CCA) и вариации CCA ядра , линейный дискриминантный анализ (LDA). ) , уменьшение размера ядра (KDR) и некоторые другие. Рассмотренные методы многообразия включают в себя многомерное масштабирование (MDS) и его основной вариант MDS , Isomap , Локально линейное вложениеи графические методы, такие как собственные карты Лапласа и спектральная кластеризация . Я перечисляю большинство рассмотренных методов здесь в случае, если оригинальная публикация недоступна для вас, либо онлайн (ссылка выше), либо офлайн (ссылки).
Существует нюанс термина «всеобъемлющий» , который я применил к упомянутой выше работе. Хотя он действительно довольно всеобъемлющий, он относительный, поскольку некоторые из подходов к уменьшению размерности не обсуждаются в монографии, в частности, те, которые ориентированы на ненаблюдаемые (скрытые) переменные . Некоторые из них упоминаются, однако, со ссылками на другой источник - книгу по уменьшению размерности.
Теперь я кратко расскажу о нескольких более узких аспектах рассматриваемой темы, обратившись к моим соответствующим или связанным ответам. Что касается подходов типа ближайших соседей (NN) к многомерным данным, пожалуйста, посмотрите мои ответы здесь (я особенно рекомендую проверить статью № 4 в моем списке). Одним из последствий проклятия размерности является то, что многомерные данные часто редки . Учитывая этот факт, я считаю, что мои соответствующие ответы здесь и здесь о регрессии и PCA для разреженных и многомерных данных могут быть полезны.
Ссылки
Burges, CJC (2010). Уменьшение размеров: экскурсия. Основы и тенденции® в машинном обучении, 2 (4), 275-365. DOI: 10,1561 / 2200000002