Реализация: пакет topicmodels предоставляет интерфейс для кода GSL C и C ++ для тематических моделей, выполненных Blei et al. и Phan et al. Для более ранней версии он использует вариационную ЭМ, для последней - выборку Гиббса. См. Http://www.jstatsoft.org/v40/i13/paper . Пакет хорошо работает с утилитами из пакета tm.
В пакете lda используется свернутый образец Гиббса для ряда моделей, аналогичных тем, которые есть в библиотеке GSL. Однако он был реализован самими авторами пакета, а не Blei et al. Следовательно, эта реализация в целом отличается от методики оценки, предложенной в оригинальных работах, в которых представлены эти варианты модели, где обычно применяется алгоритм VEM. С другой стороны, пакет предлагает больше функциональности, чем другой пакет. Пакет также предоставляет функциональность интеллектуального анализа текста.
Расширяемость. Что касается расширяемости, код тематической модели по самой своей природе может быть расширен для взаимодействия с другим кодом тематической модели, написанным на C и C ++. Пакет lda, кажется, больше полагается на конкретную реализацию, предоставленную авторами, но там сэмплер Gibbs может позволить указать вашу собственную модель темы. Что касается вопросов расширяемости nota bene, первый лицензируется по GPL-2, а второй LGPL, поэтому он может зависеть от того, для чего вам нужно его расширять (GPL-2 более строг в отношении аспекта открытого исходного кода, т.е. вы не можете его использовать в проприетарном программном обеспечении).
Производительность: я не могу вам здесь помочь, я пока использовал только тематические модели.
Заключение:
Лично я использую topicmodels
, так как это хорошо задокументировано (см. Статью JSS выше), и я доверяю авторам (Grün также реализовал flexmix, а Hornik является основным участником R).