Это было в моей голове, по крайней мере, несколько часов. Я пытался найти оптимальное k для вывода из алгоритма k-средних (с метрикой косинусного сходства ), поэтому в итоге я построил график искажения как функции от числа кластеров. Мой набор данных представляет собой коллекцию из 800 документов в 600-мерном пространстве.
Из того, что я понимаю, нахождение точки перегиба или точки колена на этой кривой должно сказать мне, по крайней мере, приблизительно количество кластеров, в которые я должен поместить свои данные. Я поставил график ниже. Точка, в которой была проведена красная вертикальная линия, была получена с использованием теста максимальной второй производной . После всего этого я застрял в чем-то гораздо более простом: что этот график говорит мне о наборе данных?
Это говорит мне о том, что кластеризацию не стоит и что в моих документах отсутствует структура или что мне нужно установить очень высокое значение k? Однако странно то, что даже при низких k я вижу похожие документы, сгруппированные вместе, поэтому я не уверен, почему я получаю эту кривую. есть идеи?
terms x document
получены после выполнения единственного вектора разложение. Пожалуйста, поправьте меня, если я ошибаюсь.