Я использую скрытое семантическое индексирование, чтобы найти сходство между документами ( спасибо, JMS! )
После уменьшения размеров я попытался использовать кластеризацию k-средних для группировки документов в кластеры, что очень хорошо работает. Но я хотел бы пойти немного дальше и визуализировать документы как набор узлов, где расстояние между любыми двумя узлами обратно пропорционально их сходству (очень похожие узлы расположены близко друг к другу).
Меня поражает, что я не могу точно уменьшить матрицу подобия для двумерного графа, так как мои данные> 2 измерения. Итак, мой первый вопрос: есть ли стандартный способ сделать это?
Могу ли я просто уменьшить свои данные до двух измерений и затем отобразить их как оси X и Y, и этого будет достаточно для группы из ~ 100-200 документов? Если это решение, лучше ли с самого начала сократить мои данные до двух измерений, или есть ли способ выбрать два «лучших» измерения из моих многомерных данных?
Я использую Python и библиотеку Gensim, если это имеет значение.