Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или (N-грамм) для построения векторного элемента, но не совсем знаю, как это сделать? Можем ли мы просто следовать подходу «мешок слов», то есть вычислить счетчик частот в терминах биграмм вместо слов и улучшить его с помощью весовой схемы tf-idf?