Парелл между LSA и pLSA

В оригинальной статье pLSA автор Томас Хоффман проводит параллель между структурами данных pLSA и LSA, которые я хотел бы обсудить с вами.

Фон:

Вдохновляясь Информация индексирование Предположим , у нас есть коллекция из $N$ документов

D = {d_{1}, d_{2}, . . . ., d_{N}}

$D = \lbrace d_1, d_2, ...., d_N \rbrace$ , и словарный запас

M

$M$ точки

Ω = {ω_{1}, ω_{2}, . . ., ω_{M}}

$\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace$

Корпус $X$ может быть представлено в виде $N \times M$ матрицы cooccurences.

В латентно - семантических анализах по SVD матрицы $X$ факторизуются в трех матрицах:

X = U Σ V^{T}

$X = U \Sigma V^T$ , где

Σ = d i a g {σ_{1}, . . ., σ_{s}}

$\Sigma = diag \lbrace \sigma_1, ..., \sigma_s \rbrace$ и

σ_{i}

$\sigma_i$ являюсь особыми значениями

X

$X$ и

s

$s$ представляет ранг

X

$X$ .

НУА приближение Затем вычисляется усечения три матрицы на некотором уровне , как показано на рисунке: $X$

\hat{X} = \hat{U} \hat{Σ} \hat{V^{T}}

$\hat{X} = \hat{U}\hat{\Sigma}\hat{V^T}$

k < s

$k < s$

введите описание изображения здесь

$Z = \lbrace z_1, z_2, ..., z_Z \rbrace$ $X$

X = [P (d_{i} | z_{k})] \times [d i a g (P (z_{k})] \times [P (f_{j} | z_{k})]^{T}

$X = [P(d_i | z_k)] \times [diag(P(z_k)] \times [P(f_j|z_k)]^T$

Актуальный вопрос:

Автор утверждает, что эти отношения существуют:

$U = [P(d_i | z_k)]$
$\hat{\Sigma} = [diag(P(z_k)]$
$V = [P(f_j|z_k)]$

и что решающее различие между LSA и pLSA является целевой функцией, используемой для определения оптимального разложения / аппроксимации.

$\hat{X}$

Можете ли вы помочь мне прояснить этот момент?

$d^*$

\hat{d^{*}} = d^{*} \times V \times V^{T}

$\hat{d^*} = d^*\times V \times V^T$

Это всегда верно?
$\hat{d^{*}} = d^{*} \times [P (f_{j} | z_{k})] \times [P (f_{j} | z_{k})]^{T}$ $\hat{d^*} = d^*\times [P(f_j|z_k)] \times [P(f_j|z_k)]^T$

Спасибо.

— Aslan986
источник

Для простоты я приведу здесь связь между LSA и факторизацией неотрицательной матрицы (NMF), а затем покажу, как простая модификация функции стоимости приводит к pLSA. Как указывалось ранее, LSA и pLSA являются методами факторизации в том смысле, что, вплоть до нормализации строк и столбцов, низкое ранговое разложение матрицы терминов документа:

X = U Σ D

$X=U\Sigma D$

используя предыдущие обозначения. Проще говоря, матрица термина документа может быть записана как произведение двух матриц:

X = A B^{T}

$X = AB^T$

$A\in\Re^{N\times s}$ $B\in\Re^{M\times s}$ $A=U \sqrt{\Sigma}$ $B=V\sqrt{\Sigma}$

Простой способ понять разницу между LSA и NMF - это использовать их геометрическую интерпретацию:

$min_{A, B} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A,B} \|X - AB^T \|_F^2,$
NMF- является решением: $L_2$
$min_{A \geq 0, B \geq 0} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A\ge 0,B\ge 0} \|X - AB^T \|_F^2,$
NMF-KL эквивалентен pLSA и является решением:
$min_{A \geq 0, B \geq 0} K L (X | | A B^{T}) .$ $\min_{A\ge 0,B\ge 0} KL(X|| AB^T).$

где является Кульбак-Либлер расхождение между матрицами и . Легко видеть, что все вышеперечисленные проблемы не имеют единственного решения, поскольку можно умножить на положительное число и разделить $KL(X||Y) = \sum_{ij} x_{ij}\log{\frac{x_{ij}}{y_{ij}}}$ $X$ $Y$ $A$ $B$ на одно и то же число, чтобы получить то же объективное значение. Следовательно, - в случае LSA люди обычно выбирают ортогональный базис, отсортированный по убыванию собственных значений. Это дается декомпозицией SVD и идентифицирует решение LSA, но возможен любой другой выбор, поскольку он не влияет на большинство операций (подобие косинуса, упомянутая выше формула сглаживания и т. Д.). - в случае NMF ортогональное разложение невозможно, но строки обычно ограничены суммой в единицу, потому что оно имеет прямую вероятностную интерпретацию как . Если, кроме того, строки нормализованы (то есть сумма равна единице), то строки должны быть суммированы в одну, что приводит к вероятностной интерпретации $A$ $p(z_k|d_i)$ $X$ $B$ $p(f_j|z_k)$ . Существует небольшая разница с версией pLSA, приведенной в приведенном выше вопросе, потому что столбцы ограничены суммой в единицу, так что значения в являются , но разница является только изменением параметризации , проблема осталась прежней. $A$ $A$ $p(d_i|z_k)$

Теперь, чтобы ответить на первоначальный вопрос, есть нечто тонкое в разнице между LSA и pLSA (и другими алгоритмами NMF): ограничения неотрицательности вызывают «эффект кластеризации», который недопустим в классическом случае LSA, потому что Singular Value Решение разложения вращательно инвариантно. Ограничения неотрицательности каким-то образом нарушают эту вращательную инвариантность и дают факторы с некоторым семантическим значением (темы в текстовом анализе). Первая статья, чтобы объяснить это:

Донохо, Дэвид Л. и Виктория С. Стодден. «Когда неотрицательная матричная факторизация дает правильное разложение на части?» Достижения в области нейронных систем обработки информации 16: материалы конференции 2003 года. MIT Press, 2004. [ссылка]

В противном случае связь между PLSA и NMF описана здесь:

Дин, Крис, Тао Ли и Вэй Пэн. «Об эквивалентности неотрицательной матричной факторизации и вероятностной скрытой семантической индексации». Вычислительная статистика и анализ данных 52,8 (2008): 3913-3927. [ссылка на сайт]

— Гийом
источник