Что касается анализа корзины покупок, я думаю, что главная цель - выделить наиболее часто встречающиеся комбинации продуктов, покупаемых покупателями. association rules
Представляют собой наиболее естественные методологии здесь ( на самом деле они на самом деле были разработаны для этой цели). Анализ комбинаций продуктов, купленных клиентами, и количества повторений этих комбинаций приводит к правилу типа «если условие, то результат» с соответствующим измерением интереса. Вы также можете рассмотреть Log-linear models
, чтобы исследовать связи между рассматриваемыми переменными.
Что касается кластеризации, вот некоторая информация, которая может пригодиться:
Сначала посмотрим Variable clustering
. Кластеризация переменных используется для оценки коллинеарности, избыточности и для разделения переменных на кластеры, которые могут быть оценены как одна переменная, что приводит к сокращению данных. Ищите varclus
функцию (пакет Hmisc в R)
Оценка кластерной устойчивости: функция clusterboot
{R package fpc}
Статистика на основе расстояния для проверки кластера: function cluster.stats
{R package fpc}
Как уже упоминалось в mbq, используйте ширину силуэта для оценки наилучшего количества кластеров. Смотрите это . Что касается ширины силуэта, см. Также функцию optsil .
Оцените количество кластеров в наборе данных с помощью статистики разрыва
Для расчета показателей различий и мер расстояния см. Dsvdis и vegdist
Алгоритм EM-кластеризации может решить, сколько кластеров создать путем перекрестной проверки (если вы не можете указать априори, сколько кластеров генерировать). Хотя алгоритм EM гарантированно сходится к максимуму, он является локальным максимумом и может не совпадать с глобальным максимумом. Для большей вероятности получения глобального максимума вся процедура должна повторяться несколько раз с разными начальными предположениями для значений параметров. Общая величина логарифмического правдоподобия может быть использована для сравнения различных полученных окончательных конфигураций: просто выберите самый большой из локальных максимумов . Вы можете найти реализацию EM кластера в проекте с открытым исходным кодом WEKA
Это тоже интересная ссылка.
Также ищите здесь дляFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Наконец, вы можете изучить результаты кластеризации, используя clusterfly