Из того, что я видел, формула сглаживания Кнезера-Ней (второго порядка) так или иначе задается как
с нормализующим коэффициентом заданным как
и вероятность продолжения слова
где - количество контекстов, в которых был замечен, или, проще, количество различных слов которые предшествуют данному слову . Из того, что я понял, формула может быть применена рекурсивно.
Теперь это хорошо обрабатывает известные слова в неизвестных контекстах для разных длин n-грамм, но не объясняет, что делать, когда есть слова вне словаря. Я попытался следовать этому примеру, в котором говорится, что на этапе рекурсии для униграмм P_ { cont } (/) = P ^ 0_ {KN} (/) = \ frac {1} {V} . Затем в документе используется это - цитирование Чена и Гудмена - для обоснования приведенной выше формулы как .
Я не вижу, как это работает при наличии неизвестного слова . В этих случаях поскольку, очевидно, неизвестное слово не продолжает ничего относительно обучающего набора. Точно так же количество n-грамм будет .
Кроме того, весь термин может быть нулевым, если встречается последовательность неизвестных слов, скажем, триграмма слов OOD.
Что мне не хватает?