2
Почему n-грамм используется в идентификации текста вместо слов?
В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки пакета слов и n-грамм? Кроме того, каковы …