Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический анализ) для получения матриц U, S, Vt, выбрал подходящий порог с использованием графика осей и применил кластеризацию к уменьшенным матрицам (особенно Vt, потому что это дает мне информацию о концептуальном документе), которая, казалось, дает мне хорошие результаты.
Я слышал, что некоторые люди говорят, что SVD (разложение по сингулярному вектору) является кластеризацией (используя меру косинусного сходства и т. Д.), И не был уверен, смогу ли я применить k-средства на выходе SVD. Я думал, что это логически правильно, потому что SVD - это метод уменьшения размерности, который дает мне кучу новых векторов. k-means, с другой стороны, примет количество кластеров в качестве входных данных и разделит эти векторы на указанное количество кластеров. Эта процедура ошибочна или есть способы, которыми это можно улучшить? Какие-либо предложения?