Многомерные данные: какие полезные методы нужно знать?

14

Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например,

Являются ли определенные статистические / моделирующие методы эффективными для многомерных наборов данных?
Можем ли мы улучшить производительность наших прогнозирующих моделей на многомерных данных, используя определенные (которые определяют альтернативные понятия расстояния) или ядра (которые определяют альтернативные понятия точечного произведения)?
Каковы наиболее полезные методы уменьшения размерности для многомерных данных?

machine-learning statistics dimensionality-reduction

— ASX
источник

10

Это очень широкий вопрос, который, я думаю, невозможно охватить всесторонне в одном ответе. Поэтому я думаю, что было бы более полезно предоставить некоторые указатели на соответствующие ответы и / или ресурсы. Это именно то, что я сделаю, предоставив следующую информацию и мои мысли.

Прежде всего, я должен упомянуть превосходное и всеобъемлющее руководство по уменьшению размерности от Burges (2009) от Microsoft Research. Он часто затрагивает аспекты многомерных данных в монографии. Эта работа, относящаяся к уменьшению размерности как уменьшению размера , представляет теоретическое введение в проблему , предлагает таксономию методов уменьшения размерности, состоящих из проективных методов и методов моделирования многообразия , а также предоставляет обзор нескольких методов в каждой категории.

Рассмотренные методы « проективного преследования» включают независимый компонентный анализ (ICA) , анализ главных компонентов (PCA) и его вариации, такие как PCA ядра и вероятностный PCA , канонический корреляционный анализ (CCA) и вариации CCA ядра , линейный дискриминантный анализ (LDA). ) , уменьшение размера ядра (KDR) и некоторые другие. Рассмотренные методы многообразия включают в себя многомерное масштабирование (MDS) и его основной вариант MDS , Isomap , Локально линейное вложениеи графические методы, такие как собственные карты Лапласа и спектральная кластеризация . Я перечисляю большинство рассмотренных методов здесь в случае, если оригинальная публикация недоступна для вас, либо онлайн (ссылка выше), либо офлайн (ссылки).

Существует нюанс термина «всеобъемлющий» , который я применил к упомянутой выше работе. Хотя он действительно довольно всеобъемлющий, он относительный, поскольку некоторые из подходов к уменьшению размерности не обсуждаются в монографии, в частности, те, которые ориентированы на ненаблюдаемые (скрытые) переменные . Некоторые из них упоминаются, однако, со ссылками на другой источник - книгу по уменьшению размерности.

Теперь я кратко расскажу о нескольких более узких аспектах рассматриваемой темы, обратившись к моим соответствующим или связанным ответам. Что касается подходов типа ближайших соседей (NN) к многомерным данным, пожалуйста, посмотрите мои ответы здесь (я особенно рекомендую проверить статью № 4 в моем списке). Одним из последствий проклятия размерности является то, что многомерные данные часто редки . Учитывая этот факт, я считаю, что мои соответствующие ответы здесь и здесь о регрессии и PCA для разреженных и многомерных данных могут быть полезны.

Ссылки

Burges, CJC (2010). Уменьшение размеров: экскурсия. Основы и тенденции® в машинном обучении, 2 (4), 275-365. DOI: 10,1561 / 2200000002

— Александр Блех
источник

0

Александр дал очень исчерпывающий ответ, но есть несколько, которые предъявляют иск очень широко:

Для уменьшения размерности используется PCA. Тем не менее, это делает только линейное преобразование, а для нелинейного уменьшения размерности - то, что вы ищете.

Проецирование данных более низкого размера в более высокое измерение может быть выполнено с использованием ядер. Вы обычно делаете это, когда ваш классификатор не может найти линейную плоскость разделения в текущем измерении, но сможет найти линейную гиперплоскость, которая разделяет классы в более высоком измерении. Ядра широко используются в SVM.

— ОЗУ
источник