Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?

Один из способов создания встраивания слов заключается в следующем ( зеркало ):

Получите корпус, например: «Мне нравится летать. Мне нравится НЛП. Мне нравится глубокое обучение».
Создайте матрицу словосочетания из него:

Выполните SVD на $X$ и сохраните первые $k$ столбцов U.

$U_{1:|V|,1:k}$

Между этапами 2 и 3 иногда применяется точечная взаимная информация (например, A. Herbelot и EM Vecchi. 2015. Построение общего мира: отображение распределения на теоретико-модельные семантические пространства . В материалах конференции 2015 г. по эмпирическим методам обработки естественного языка Лиссабон, Португалия .).

Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?

— Франк Дернонкур
источник

согласно книге Дана Джурафски и Джеймса Х. Мартина :

«Оказывается, однако, что простая частота не является наилучшей мерой связи между словами. Одна из проблем заключается в том, что необработанная частота очень искажена и не очень разборчива. Если мы хотим знать, какие виды контекстов разделяют абрикос и ананас» но не с помощью цифровых данных и информации, мы не собираемся получать хорошую дискриминацию от таких слов, как, оно или они, которые часто встречаются со всеми видами слов и не дают информации о каком-либо конкретном слове ».

иногда мы заменяем эту необработанную частоту положительной точечной взаимной информацией:

PPMI (вес, с) знак равно Максимум ({журнал}_{2} \frac{п (вес, с)}{п (вес) п (с)}, 0)

$\text{PPMI}(w,c) = \max{\left(\log_{2}{\frac{P(w,c)}{P(w)P(c)}},0\right)}$

PMI сам по себе показывает, насколько возможно наблюдать слово w с помощью контекстного слова C по сравнению с наблюдением их независимо. В PPMI мы сохраняем только положительные значения PMI. Давайте подумаем, когда PMI равен + или - и почему мы оставляем только отрицательные значения:

Что означает положительный PMI?

$\frac{P(w,c)}{(P(w)P(c))} > 1$
$P(w,c) > (P(w)P(c))$
$w$ $c$

Что означает отрицательный PMI?

$\frac{P(w,c)}{(P(w)P(c))} < 1$
$P(w,c) < (P(w)P(c))$
$w$ $c$

PMI или, в частности, PPMI помогает нам улавливать такие ситуации с информативным совпадением.

— Марьям Хнр
источник