согласно книге Дана Джурафски и Джеймса Х. Мартина :
«Оказывается, однако, что простая частота не является наилучшей мерой связи между словами. Одна из проблем заключается в том, что необработанная частота очень искажена и не очень разборчива. Если мы хотим знать, какие виды контекстов разделяют абрикос и ананас» но не с помощью цифровых данных и информации, мы не собираемся получать хорошую дискриминацию от таких слов, как, оно или они, которые часто встречаются со всеми видами слов и не дают информации о каком-либо конкретном слове ».
иногда мы заменяем эту необработанную частоту положительной точечной взаимной информацией:
PPMI ( w , c ) = max ( log2п( ш , в )п( ш ) П( в ), 0 )
PMI сам по себе показывает, насколько возможно наблюдать слово w с помощью контекстного слова C по сравнению с наблюдением их независимо. В PPMI мы сохраняем только положительные значения PMI. Давайте подумаем, когда PMI равен + или - и почему мы оставляем только отрицательные значения:
Что означает положительный PMI?
п( ш , в )( P( ш ) П( с ) )> 1
п( w , c ) > ( P( ш ) П( с ) )
весс
Что означает отрицательный PMI?
п( ш , в )( P( ш ) П( с ) )< 1
п( w , c ) < ( P( ш ) П( с ) )
весс
PMI или, в частности, PPMI помогает нам улавливать такие ситуации с информативным совпадением.