Парелл между LSA и pLSA


9

В оригинальной статье pLSA автор Томас Хоффман проводит параллель между структурами данных pLSA и LSA, которые я хотел бы обсудить с вами.

Фон:

Вдохновляясь Информация индексирование Предположим , у нас есть коллекция из N документов

D={d1,d2,....,dN}
, и словарный запас M точки
Ω={ω1,ω2,...,ωM}

Корпус X может быть представлено в виде N×M матрицы cooccurences.

В латентно - семантических анализах по SVD матрицы X факторизуются в трех матрицах:

X=UΣVT
, где Σ=diag{σ1,...,σs} и σi являюсь особыми значениями X и s представляет ранг X .

НУА приближение Х = U Σ ^ V Т Затем вычисляется усечения три матрицы на некотором уровне к < s , как показано на рисунке:X

X^=U^Σ^VT^
k<s

введите описание изображения здесь

Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Актуальный вопрос:

Автор утверждает, что эти отношения существуют:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

и что решающее различие между LSA и pLSA является целевой функцией, используемой для определения оптимального разложения / аппроксимации.

X^

Можете ли вы помочь мне прояснить этот момент?

d

d^=d×V×VT
  1. Это всегда верно?
  2. d^=d×[P(fj|zk)]×[P(fj|zk)]T

Спасибо.

Ответы:


12

Для простоты я приведу здесь связь между LSA и факторизацией неотрицательной матрицы (NMF), а затем покажу, как простая модификация функции стоимости приводит к pLSA. Как указывалось ранее, LSA и pLSA являются методами факторизации в том смысле, что, вплоть до нормализации строк и столбцов, низкое ранговое разложение матрицы терминов документа:

X=UΣD

используя предыдущие обозначения. Проще говоря, матрица термина документа может быть записана как произведение двух матриц:

X=ABT

AN×sBM×sA=UΣB=VΣ

Простой способ понять разницу между LSA и NMF - это использовать их геометрическую интерпретацию:

  • minA,BXABTF2,
  • NMF- является решением: L2

    minA0,B0XABTF2,
  • NMF-KL эквивалентен pLSA и является решением:

    minA0,B0KL(X||ABT).

где является Кульбак-Либлер расхождение между матрицами и . Легко видеть, что все вышеперечисленные проблемы не имеют единственного решения, поскольку можно умножить на положительное число и разделить XYABAp(zk|di)XBp(fj|zk)KL(X||Y)=ijxijlogxijyijXYABна одно и то же число, чтобы получить то же объективное значение. Следовательно, - в случае LSA люди обычно выбирают ортогональный базис, отсортированный по убыванию собственных значений. Это дается декомпозицией SVD и идентифицирует решение LSA, но возможен любой другой выбор, поскольку он не влияет на большинство операций (подобие косинуса, упомянутая выше формула сглаживания и т. Д.). - в случае NMF ортогональное разложение невозможно, но строки обычно ограничены суммой в единицу, потому что оно имеет прямую вероятностную интерпретацию как . Если, кроме того, строки нормализованы (то есть сумма равна единице), то строки должны быть суммированы в одну, что приводит к вероятностной интерпретацииAp(zk|di)XBp(fj|zk) . Существует небольшая разница с версией pLSA, приведенной в приведенном выше вопросе, потому что столбцы ограничены суммой в единицу, так что значения в являются , но разница является только изменением параметризации , проблема осталась прежней.A p ( d i | z k )AAp(di|zk)

Теперь, чтобы ответить на первоначальный вопрос, есть нечто тонкое в разнице между LSA и pLSA (и другими алгоритмами NMF): ограничения неотрицательности вызывают «эффект кластеризации», который недопустим в классическом случае LSA, потому что Singular Value Решение разложения вращательно инвариантно. Ограничения неотрицательности каким-то образом нарушают эту вращательную инвариантность и дают факторы с некоторым семантическим значением (темы в текстовом анализе). Первая статья, чтобы объяснить это:

Донохо, Дэвид Л. и Виктория С. Стодден. «Когда неотрицательная матричная факторизация дает правильное разложение на части?» Достижения в области нейронных систем обработки информации 16: материалы конференции 2003 года. MIT Press, 2004. [ссылка]

В противном случае связь между PLSA и NMF описана здесь:

Дин, Крис, Тао Ли и Вэй Пэн. «Об эквивалентности неотрицательной матричной факторизации и вероятностной скрытой семантической индексации». Вычислительная статистика и анализ данных 52,8 (2008): 3913-3927. [ссылка на сайт]

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.