Хорошие пакеты для «частого анализа последовательности» в Python?


14

Кто-нибудь использовал (и любил) какие-либо хорошие пакеты для "частого анализа последовательности" в Python, кроме FPM в MLLib? Я ищу стабильную посылку, предпочтительнее для тех, кто поддерживается. Спасибо!

Ответы:


6

Я нашел только один: https://github.com/bartdag/pymining

у них есть реализация BIDEтам, но это не поддерживаемый код.

PS Присоединяюсь к вашему вопросу: - |


Просто чтобы уточнить, он не реализовал BIDE, который добывает частые закрытые последовательности. Он фактически реализовал PrefixSpan, который добывает все частые последовательности. PrefixSpan и BIDE используют одну и ту же структуру перечисления шаблонов, поэтому авторы цитируют статью BIDE.
Чуанконг Гао

То, что я сделал в конце, используется: philippe-fournier-viger.com/spmf - Это
библиотека

6

Я активно поддерживаю эффективную реализацию как PrefixSpan, так и BIDE в Python 3, поддерживая майнинг как частых, так и топ-к (закрытых) последовательных паттернов.

https://github.com/chuanconggao/PrefixSpan-py


Я хотел бы реализовать их в JavaScript, но я не совсем понимаю, как работают эти алгоритмы. Можете ли вы объяснить это на простом английском?
inf3rno

Я предлагаю вам проверить мою оригинальную минимальную реализацию PrefixSpan. Его основная часть занимает всего 15 строк. gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Чуанконг Гао

Спасибо! Я постараюсь перевести его на js, но это будет нелегко. :-) Afaik PrefixSpan строит проектируемые базы данных на основе совпадения префикса. В настоящее время я читаю о BIDE, а теория - еще лучший алгоритм.
inf3rno

Слишком много различий между коллекциями js и python. Мне не удалось воспроизвести код в js. Я попробую это позже.
inf3rno

Не уверен, поможет ли это, но у меня есть другая версия Scala PrefixSpan. github.com/chuanconggao/PrefixSpan-scala Тем не менее, я настоятельно рекомендую вам полностью понять алгоритм перед его внедрением.
Чуанконг Гао

1

Я использовал FIM «s функцию fpgrowth в прошлом , и она работала хорошо. Однако это довольно сложно установить на Windows-машины. Кажется, это академический веб-сайт, поэтому я не уверен, что они со временем обновляют код ...


1

Вы думали написать это самостоятельно? Потому что сейчас, вероятно, нет обновленной библиотеки.

Проверьте это, его основные шаблоны PrefixSpan и Closed / Maximal на самом деле не так сложны в реализации:

http://sequenceanalysis.github.io/



Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.