У меня есть набор данных, состоящий из 5 функций: A, B, C, D, E. Все они являются числовыми значениями. Вместо кластеризации на основе плотности я хочу кластеризовать данные в виде дерева решений.
Подход, который я имею в виду, выглядит примерно так:
Алгоритм может делить данные на X исходных кластеров на основе признака C, то есть X кластеров могут иметь малые значения C, средний C, большие C и очень большие значения C и т. Д. Затем, под каждым из узлов X кластера, алгоритм дополнительно делит данные в кластеры Y основаны на функции A. Алгоритм продолжается до тех пор, пока не будут использованы все функции.
Алгоритм, который я описал выше, похож на алгоритм дерева решений. Но он мне нужен для неконтролируемой кластеризации, а не для контролируемой классификации.
Мои вопросы следующие:
- Такие алгоритмы уже существуют? Какое правильное название для такого алгоритма
- Существует ли пакет / библиотека R / python, в котором есть реализация алгоритмов такого рода?
CHAID
, к примеру, дерево. Вы должны выбрать зависимую переменную. Пусть это будет A. Алгоритм выбирает среди B, C, D, E переменную, наиболее коррелированную с A, и binns эту переменную (скажем, это, предиктор, быть D) на две или более категории «оптимально» - так, чтобы корреляция (между категорированной переменной D и переменной A максимально. Скажем, осталось 3 группы, D1, D2, D3. Далее, та же самая процедура повторяется внутри каждой категории (группы) D отдельно, и лучший предиктор среди B, C , E ищется под биннингом и т. Д. Что именно вам здесь не подходит?
But I need it for unsupervised clustering, instead of supervised classification
Одна только эта ключевая фраза слишком коротка и не дает четкого объяснения того, что вы хотите. Выше вы описали то, что мне кажется деревом решений. Можете ли вы сейчас дать аналогичный отрывок о желаемом алгоритме?