При чем n-граммы становятся контрпродуктивными?

13

При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы).

Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса один раз на этом уровне? Или учитывая количество времени, которое потребуется для поиска вероятностей в словаре (структура данных)?

text-mining natural-language

— jonsca
источник

связанный с этой другой нитью о проклятии размерности

— Антуан

2

Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса один раз на этом уровне?

Вы должны искать недоумение против таблиц или графиков размера n-граммы .

Примеры:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.myshared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

Сложность зависит от вашей языковой модели, размера n-граммы и набора данных. Как обычно, существует компромисс между качеством языковой модели и продолжительностью работы. Лучшие языковые модели в настоящее время основаны на нейронных сетях, поэтому выбор размера n-граммы не является проблемой (но вам нужно выбрать размер (ы) фильтра, если вы используете CNN, среди других гиперпараметров ...).

— Франк Дернонкур
источник

12

Ваша мера «контрпродуктивности» может быть произвольной - например. с большим количеством быстрой памяти это может быть обработано быстрее (более разумно).

Сказав это, в это входит экспоненциальный рост, и, по моим собственным наблюдениям, он составляет около 3-4 баллов. (Я не видел никаких конкретных исследований).

Триграммы имеют преимущество перед биграммами, но они маленькие. Я никогда не применял 4 грамма, но улучшение будет намного меньше. Вероятно, аналогичный порядок уменьшения. Например. если триграммы улучшают результаты на 10% по сравнению с биграммами, то разумная оценка для 4 граммов может быть на 1% лучше по сравнению с триграммами.

Однако настоящий убийца - это память и разбавление числовых показателей. С $10,000$ уникальное слово корпус, тогда нужна модель биграмма $10000^2$ ценности; модель триграммы потребуется $10000^3$ ; а 4-грамм понадобится $10000^4$ , Теперь, хорошо, это будут редкие массивы, но вы получите картину. Наблюдается экспоненциальный рост числа значений, и вероятности становятся намного меньше из-за разбавления частотных показателей. Разница между 0 или 1 наблюдением становится намного более важной, и все же частота наблюдений отдельных 4-граммовых снижается.

Вам понадобится огромный корпус, чтобы компенсировать эффект разбавления, но закон Ципфа гласит, что у огромного корпуса также будут еще более уникальные слова ...

Я предполагаю, что именно поэтому мы видим много моделей, реализаций и демонстраций биграмм и триграмм; но нет полностью работающих 4-граммовых примеров.

— winwaed
источник

2

Хорошее резюме. На страницах 48-53 («длинная блуждающая циничная диатриба») следующей статьи более подробно об этом (статья также содержит некоторые результаты для n-граммов более высокого порядка) research.microsoft.com/~joshuago/longcombine.pdf

— Евгений

2

Ссылка мертва. Вот полная ссылка и ссылка на версию arXiv: Джошуа Т. Гудман (2001). Немного прогресса в языковом моделировании: расширенная версия. Microsoft Research: Редмонд, Вашингтон (США). Технический отчет MSR-TR-2001-72.

— scozy