Я хочу использовать скрытое выделение дирихле для проекта, и я использую Python с библиотекой gensim. После нахождения тем я хотел бы кластеризовать документы, используя алгоритм, такой как k-means (в идеале я хотел бы использовать хороший для перекрывающихся кластеров, поэтому любая рекомендация приветствуется). Мне удалось получить темы, но они в форме:
0,041 * министр + 0,041 * ключ + 0,041 * моменты + 0,041 * спорный + 0,041 * премьер
Чтобы применить алгоритм кластеризации и исправить меня, если я ошибаюсь, я считаю, что должен найти способ представить каждое слово в виде числа, используя tfidf или word2vec.
Есть ли у вас какие-либо идеи о том, как я мог бы «убрать» текстовую информацию, например, из списка, чтобы сделать это, а затем поместить их обратно, чтобы сделать соответствующее умножение?
Например, как я понимаю, если слово «министр» имеет вес tfidf 0,042 и т. Д. Для любого другого слова в той же теме, я должен вычислить что-то вроде:
0.041 * 0.42 + ... + 0.041 * tfidf (Prime) и получите результат, который позже будет использован для кластеризации результатов.
Спасибо за ваше время.