Зачем беспокоиться о приближении низкого ранга?


20

Если у вас есть матрица с n строками и m столбцами, вы можете использовать SVD или другие методы для вычисления аппроксимации низкого ранга данной матрицы.

Однако в приближении низкого ранга все равно будет n строк и m столбцов. Как могут быть использованы низкоранговые аппроксимации для машинного обучения и обработки естественного языка, если у вас осталось такое же количество функций?


2
Они обычно имеют разреженные представления - вам не нужно хранить чисел для приближения низкого ранга. Например, приближение ранга 1 требует чисел. н + мmnn+m
вероятностная

Ответы:


16

Аппроксимация низкого ранга для может быть разложена на квадратный корень матрицы как где собственное разложение есть , тем самым уменьшая количество функций, которые могут быть представлены с помощью на основе ранга г приближении как . Обратите внимание, что индекс ХG=Uгλ 1X^XXUЛUТОХ=ОСТгG=Urλr12XUλUTGX^=GGTr представляет количество собственных векторов и собственных значений, используемых в приближении. Следовательно, это уменьшает количество функций для представления данных. В некоторых примерах аппроксимации низкого ранга рассматриваются как расширения исходных данных на основе базисной или латентной переменной (словаря) при особых ограничениях, таких как ортогональность, неотрицательность (неотрицательная матричная факторизация) и т. Д.


5

Точка аппроксимации низкого ранга не обязательно предназначена только для уменьшения размера.

Идея состоит в том, что, основываясь на знании предметной области, данные / записи матрицы каким-то образом сделают матрицу низким ранжированием. Но это в идеальном случае, когда записи не подвержены шуму, искажениям, отсутствующим значениям и т. Д. Наблюдаемая матрица обычно будет иметь гораздо более высокий рейтинг.

Таким образом, аппроксимация низкого ранга является способом восстановления «исходной» («идеальной» матрицы до того, как она была испорчена шумом и т. Д.), Т. Е. Найти наиболее согласованную матрицу (с точки зрения наблюдаемых записей) с текущей матрицей и имеет низкий ранг, так что его можно использовать как приближение к идеальной матрице. Восстановив эту матрицу, мы можем использовать ее вместо шумной версии и, надеюсь, получить лучшие результаты.


4

Еще две причины, не упомянутые до сих пор:

  1. Уменьшение колинеарности. Я полагаю, что большинство этих методов снимают коллинеарность, что может быть полезно для последующей обработки.

  2. Наше воображение низшего ранга, поэтому оно может быть полезным для изучения низкосортных отношений.



1

Согласно «Современным многомерным статистическим методам (Изенман)» регрессия с пониженным рангом охватывает несколько интересных методов в качестве особых случаев, включая PCA, факторный анализ, канонический анализ вариаций и корреляции, LDA и анализ соответствия.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.