У меня есть данные, которые эквивалентны:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Я хотел бы провести некоторый анализ этого набора данных, чтобы получить корреляционную матрицу, которая имела бы значение, аналогичное следующему: если вы купили x, вы, вероятно, купите y.
Используя python (или что-нибудь еще, кроме MATLAB), как я могу это сделать? Некоторые базовые рекомендации или указатели на то, куда мне следует обратиться, помогут.
Спасибо,
Изменить - Что я узнал:
Такие проблемы известны как обнаружение правил ассоциации. В Википедии есть хорошая статья, охватывающая некоторые распространенные алгоритмы для этого. Классический алгоритм для этого, кажется, Apriori, из-за Agrawal et. и др.
Это привело меня к оранжевому пакету интеллектуального анализа данных на Python. Для Linux лучший способ установить его, похоже, из исходного кода, используя прилагаемый файл setup.py
Orange по умолчанию считывает входные данные из файлов, отформатированных одним из нескольких поддерживаемых способов.
Наконец, простое изучение правил ассоциации Apriori просто в оранжевом.
arules
стоит посмотреть. Может быть, «правила ассоциации» - это хороший поисковый термин