В сглаживании Кнезера-Нея, как обрабатываются невидимые слова?

15

Из того, что я видел, формула сглаживания Кнезера-Ней (второго порядка) так или иначе задается как

$\begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align}$

с нормализующим коэффициентом $\lambda(w_{n-1})$ заданным как

$\begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align}$

и вероятность продолжения $P_{cont}(w_n)$ слова $w_n$

$\begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align}$

где $N_{1+}\left(\bullet w\right)$ - количество контекстов, в которых $w$ был замечен, или, проще, количество различных слов $\bullet$ которые предшествуют данному слову $w$ . Из того, что я понял, формула может быть применена рекурсивно.

Теперь это хорошо обрабатывает известные слова в неизвестных контекстах для разных длин n-грамм, но не объясняет, что делать, когда есть слова вне словаря. Я попытался следовать этому примеру, в котором говорится, что на этапе рекурсии для униграмм cont $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$ . Затем в документе используется это - цитирование Чена и Гудмена - для обоснования приведенной выше формулы как $P^1_{KN}(w) = P_{cont}(w)$ .

Я не вижу, как это работает при наличии неизвестного слова $w = \text{unknown}$ . В этих случаях $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ поскольку, очевидно, неизвестное слово не продолжает ничего относительно обучающего набора. Точно так же количество n-грамм будет $C\left(w_{n-1}, \text{unknown}\right) = 0$ .

Кроме того, весь термин $\sum_{w'} C\left(w_{n-1}, w'\right)$ может быть нулевым, если встречается последовательность неизвестных слов, скажем, триграмма слов OOD.

Что мне не хватает?

— Sunside
источник

Я тоже борюсь с КН. Я думаю, что вероятность невидимого биграмма P (w1w2) может откатиться к вероятности продолжения последнего униграммы w2. Когда вы остаетесь с невидимой униграммой, у вас ничего не было. Что делать дальше? Я не знаю.

— Момобо

Я сейчас пытаюсь внедрить KN самостоятельно и застрял с этой же проблемой. Кто-нибудь из вас сумел найти решение?

— Jbaiter

Я вернулся к сглаживанию Good-Turing для невидимых униграмм (подгонка степенной функции к частотам и частотам) ... с различными результатами.

— июня

6

Дэн Юрафски опубликовал главу о моделях N-Gram, в которой немного говорится об этой проблеме:

По окончании рекурсии униграммы интерполируются с равномерным распределением:

$\begin{align} P_{KN}(w) = \frac{\max(c_{KN}(w)-d,0)}{\sum_{w'}c_{KN}(w')}+\lambda(\epsilon)\frac{1}{|V|} \end{align}$

Если мы хотим включить неизвестное слово <UNK>, оно просто включается как обычный словарный запас с нулевым счетом, и, следовательно, его вероятность будет:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} \end{align}$

Я пытался выяснить, что это значит, но не уверен, что означает просто . Если это так, и вы предполагаете, что, поскольку счетчик обнуляется, возможно, переходит к , в соответствии с: $\epsilon$ $\lim_{x\rightarrow0}x$ $\lambda(\epsilon)$ $d$

$\begin{align} \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}\vert\{w:c(w_{i-1},w)>0\}\vert \end{align}$

тогда неизвестному слову просто присваивается доля скидки, т.е.

$\begin{align} \frac{\lambda(\epsilon)}{|V|} = \frac{d}{|V|} \end{align}$

Я не уверен в этом ответе вообще, но хотел получить его там на случай, если он вызовет еще некоторые мысли.

Обновление: копаясь еще немного, кажется, что обычно используется для обозначения пустой строки (""), но все еще неясно, как это влияет на вычисление . по-прежнему моя лучшая догадка $\epsilon$ $\lambda$ $\frac{d}{|V|}$

— abroekhof
источник

2

Хороший ответ, но, как и вы, я не уверен в этом на 100%. Я реализовал версию сценария perl research.microsoft.com/en-us/um/redmond/groups/srg/papers/…s в python - но понял, что он работает только как есть, если у вас есть закрытый словарь (проблема с 0 пробами) ) - то есть все тестовые надписи также находятся в поезде. Как полагает Ян lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf I заменил первый экземпляр каждого слова с <УНК> во время предварительной обработки. Тем не менее, при разбиении, есть некоторые тестовые униграммы не в поезде, как "goofedup". Поэтому я использовал д / | V | Вот. Благодарность!

— Джош Морел

1

Есть много способов тренировать модель, <UNK>хотя Юрафски предлагает выбрать те слова, которые встречаются в процессе обучения очень редко, и просто изменить их на <UNK>.

Затем просто обучите вероятности, как обычно.

Смотрите это видео, начиная с 3:40 -

https://class.coursera.org/nlp/lecture/19

Другой подход заключается в том, чтобы просто рассматривать слово как <UNK>самый первый раз, когда оно встречается на тренировке, хотя из моего опыта этот подход назначает слишком большую часть вероятностной массы <UNK>.

— похотливый
источник

0

Всего несколько мыслей, я далеко не эксперт в этом вопросе, поэтому я не собираюсь давать ответ на вопрос, а анализировать его.

Самое простое, что можно сделать, - это вычислить , задав сумму, равную единице. Это разумно, так как пустая строка никогда не видна в обучающем наборе (ничто не может быть предсказано из ничего), и сумма должна быть равна единице. Если это так, то можно оценить как: Помните, что здесь получается из биграмной модели. $\lambda(\epsilon)$ $\lambda(\epsilon)$

λ (ϵ) = 1 - \frac{\sum_{w} m a x (C_{K N} (w) - d, 0)}{\sum_{w^{'}} C_{K N} (w)}

$\lambda(\epsilon)=1-\frac{\sum_w{max(C_{KN}(w) - d, 0)}}{\sum_{w'}{C_{KN}(w)}}$

C_{K N} (w)

$C_{KN}(w)$

Другой вариант - оценить <unk>вероятность с помощью методов, упомянутых Рэнди, и рассматривать ее как обычный токен.

Я думаю, что этот шаг сделан, чтобы гарантировать, что формулы последовательны. Обратите внимание, что термин не зависит от контекста и присваивает фиксированные значения вероятностям каждого токена. Если вы хотите предсказать следующее слово, вы можете предварительно предсказать этот термин, с другой стороны, если вы хотите сравнить вероятность Кнезера - Нейя, назначенную каждому токену в двух или более различных контекстах, вы можете использовать его. $\frac{\lambda(\epsilon)}{|V|}$

— Даниэль Виллегас
источник

Предполагается, что ответы предназначены для реальных ответов.

— Майкл Р. Черник