Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?


11

Один из способов создания встраивания слов заключается в следующем ( зеркало ):

  1. Получите корпус, например: «Мне нравится летать. Мне нравится НЛП. Мне нравится глубокое обучение».
  2. Создайте матрицу словосочетания из него:

введите описание изображения здесь

  1. Выполните SVD на Икс и сохраните первые К столбцов U.

введите описание изображения здесь

U1:|В|,1:К

Между этапами 2 и 3 иногда применяется точечная взаимная информация (например, A. Herbelot и EM Vecchi. 2015. Построение общего мира: отображение распределения на теоретико-модельные семантические пространства . В материалах конференции 2015 г. по эмпирическим методам обработки естественного языка Лиссабон, Португалия .).

Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?

Ответы:


11

согласно книге Дана Джурафски и Джеймса Х. Мартина :

«Оказывается, однако, что простая частота не является наилучшей мерой связи между словами. Одна из проблем заключается в том, что необработанная частота очень искажена и не очень разборчива. Если мы хотим знать, какие виды контекстов разделяют абрикос и ананас» но не с помощью цифровых данных и информации, мы не собираемся получать хорошую дискриминацию от таких слов, как, оно или они, которые часто встречаются со всеми видами слов и не дают информации о каком-либо конкретном слове ».

иногда мы заменяем эту необработанную частоту положительной точечной взаимной информацией:

PPMI(вес,с)знак равноМаксимум(журнал2п(вес,с)п(вес)п(с),0)

PMI сам по себе показывает, насколько возможно наблюдать слово w с помощью контекстного слова C по сравнению с наблюдением их независимо. В PPMI мы сохраняем только положительные значения PMI. Давайте подумаем, когда PMI равен + или - и почему мы оставляем только отрицательные значения:

Что означает положительный PMI?

  • п(вес,с)(п(вес)п(с))>1

  • п(вес,с)>(п(вес)п(с))

  • весс

Что означает отрицательный PMI?

  • п(вес,с)(п(вес)п(с))<1

  • п(вес,с)<(п(вес)п(с))

  • весс

PMI или, в частности, PPMI помогает нам улавливать такие ситуации с информативным совпадением.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.