Но я не знаю, в чем разница между классификацией текста и тематическими моделями в документах
Text Classification
является формой контролируемого обучения, поэтому набор возможных классов известен / определен заранее и не изменится.
Topic Modeling
является формой обучения без учителя (сродни кластеризации), поэтому набор возможных тем не известен априори . Они определены как часть создания тематических моделей. С недетерминированным алгоритмом, таким как LDA, вы будете получать разные темы при каждом запуске алгоритма.
Text classification
часто включает взаимоисключающие классы - думайте о них как о ведрах.
Но это не обязательно: учитывая правильный вид помеченных входных данных, вы можете установить серию не взаимоисключающих двоичных классификаторов.
Topic modeling
как правило, не является взаимоисключающим: один и тот же документ может иметь распределение вероятностей по многим темам. Кроме того, существуют также иерархические методы моделирования тем.
Также можно ли использовать модель темы для документов, чтобы впоследствии идентифицировать одну тему, можно ли использовать классификацию для классификации текста внутри этих документов?
Если вы спрашиваете, можете ли вы взять все документы, назначенные одной теме, с помощью алгоритма моделирования тем, а затем применить классификатор к этой коллекции, то да, вы, безусловно, можете это сделать.
Однако я не уверен, что это имеет смысл: как минимум, вам нужно будет выбрать пороговое значение для распределения вероятности по темам, выше которого вы будете включать документы в свою коллекцию (обычно 0,05–0,1).
Можете ли вы уточнить ваш вариант использования?
Кстати, здесь есть отличное руководство по моделированию тем с использованием библиотеки MALLET для Java: Начало работы с моделированием тем и MALLET