Когда выбрать PCA против LSA / LSI

Вопрос:

Существуют ли общие рекомендации относительно характеристик входных данных, которые можно использовать для выбора между применением PCA и LSA / LSI?

Краткое описание PCA против LSA / LSI:

Принципиальный компонентный анализ (PCA) и скрытый семантический анализ (LSA) или скрытое семантическое индексирование (LSI) схожи в том смысле, что все они основаны на применении разложения по сингулярным значениям (SVD) к матрице.

Насколько я могу судить, LSA и LSI - это одно и то же. LSA отличается от PCA не принципиально, а в том, как элементы матрицы предварительно обрабатываются до применения SVD.

В LSA этап предварительной обработки обычно включает в себя нормализацию матрицы подсчета, где столбцы соответствуют «документам», а строки соответствуют некоторому виду слова. Записи можно рассматривать как некое (нормализованное) число появлений слова для документа.

В PCA этап предварительной обработки включает в себя вычисление ковариационной матрицы из исходной матрицы. Исходная матрица концептуально более «общая» по природе, чем в случае LSA. Там, где речь идет о PCA, обычно говорят, что столбцы ссылаются на типовые векторы выборки, а строки указывают на отдельные измеряемые переменные. Ковариационная матрица по определению является квадратной и симметричной, и на самом деле нет необходимости применять SVD, потому что ковариационная матрица может быть разложена посредством диагонализации. Примечательно, что матрица PCA почти наверняка будет плотнее, чем вариант LSA / LSI - нулевые записи будут происходить только тогда, когда ковариация между переменными равна нулю, то есть где переменные являются независимыми.

Наконец, еще один описательный момент, который делается довольно часто, чтобы различать эти два, состоит в том, что

LSA ищет лучшее линейное подпространство в норме Фробениуса, в то время как PCA стремится к лучшему аффинному линейному подпространству.

В любом случае, различия и сходства этих методов были горячо обсуждены на различных форумах во всех интернет-сетях, и, очевидно, есть некоторые существенные различия, и ясно, что эти два метода дадут разные результаты.

Поэтому я повторяю свой вопрос: существуют ли какие-либо общие рекомендации в отношении характеристик входных данных, которые можно использовать для выбора между применением PCA и LSA / LSI? Если у меня есть что-то похожее на матрицу терминологического документа, будет ли LSA / LSI всегда лучшим выбором? Можно ли ожидать улучшения результатов в некоторых случаях, подготовив матрицу термина / документа для LSA / LSI и затем применив PCA к результату вместо непосредственного применения SVD?

machine-learning pca lsa

— qi5d02lx
источник

Ваше описание LSA / LSI очень напоминает мне анализ соответствия (CA), и я подозреваю, что аббревиатура для анализа текста LSA означает CA в статистике. CA и PCA действительно очень тесно связаны.

— ttnphns

Эй, я просто хотел узнать, нашел ли ты ответ на этот вопрос, у меня точно такой же вопрос.

— Pushpendre

Что ты пытаешься сделать? Это может дать некоторое представление о том, что может быть более применимым. Заинтересованы ли вы в поиске шаблонов текста и семантических корреляций или скрытого пространства меньшего размера с точки зрения как документов, так и терминов?

— ui_90jax

Я заметил одно отличие: PCA может дать вам только сходство терминов или документ-документ (в зависимости от того, как вы умножили матрицу базовых значений или ), но SVD / LSA может предоставить оба, поскольку у вас есть собственные векторы обоих и . На самом деле я не вижу причин использовать PCA когда-либо поверх SVD. $AA^*$ $A^*A$ $AA^*$ $A^*A$

— Pushpendre
источник