В чем разница между классификацией текста и тематическими моделями?


20

Я знаю разницу между кластеризацией и классификацией в машинном обучении, но я не понимаю разницу между классификацией текста и тематическим моделированием для документов. Могу ли я использовать моделирование темы поверх документов, чтобы определить тему? Могу ли я использовать методы классификации для классификации текста внутри этих документов?

Ответы:


28

Классификация текста

Я даю вам кучу документов, к каждому из которых прикреплена этикетка. Я прошу вас узнать, почему, по вашему мнению, содержанию документов были присвоены эти ярлыки на основе их слов. Затем я даю вам новые документы и спрашиваю, какой, по вашему мнению, должна быть этикетка для каждого. Этикетки имеют значение для меня, а не для вас обязательно.

Тематическое моделирование

Я даю вам кучу документов, без ярлыков. Я прошу вас объяснить, почему в документах есть слова, которые они делают, указав некоторые темы, о которых каждая из них «о». Вы говорите мне темы, говоря, сколько каждого из них содержится в каждом документе, и я решаю, что темы «означают», если что-нибудь.

Вы должны были бы уточнить, что вы мне, "определить одну тему" или "классифицировать текст".


10

Но я не знаю, в чем разница между классификацией текста и тематическими моделями в документах

Text Classificationявляется формой контролируемого обучения, поэтому набор возможных классов известен / определен заранее и не изменится.

Topic Modelingявляется формой обучения без учителя (сродни кластеризации), поэтому набор возможных тем не известен априори . Они определены как часть создания тематических моделей. С недетерминированным алгоритмом, таким как LDA, вы будете получать разные темы при каждом запуске алгоритма.

Text classificationчасто включает взаимоисключающие классы - думайте о них как о ведрах.
Но это не обязательно: учитывая правильный вид помеченных входных данных, вы можете установить серию не взаимоисключающих двоичных классификаторов.

Topic modelingкак правило, не является взаимоисключающим: один и тот же документ может иметь распределение вероятностей по многим темам. Кроме того, существуют также иерархические методы моделирования тем.

Также можно ли использовать модель темы для документов, чтобы впоследствии идентифицировать одну тему, можно ли использовать классификацию для классификации текста внутри этих документов?

Если вы спрашиваете, можете ли вы взять все документы, назначенные одной теме, с помощью алгоритма моделирования тем, а затем применить классификатор к этой коллекции, то да, вы, безусловно, можете это сделать.

Однако я не уверен, что это имеет смысл: как минимум, вам нужно будет выбрать пороговое значение для распределения вероятности по темам, выше которого вы будете включать документы в свою коллекцию (обычно 0,05–0,1).

Можете ли вы уточнить ваш вариант использования?

Кстати, здесь есть отличное руководство по моделированию тем с использованием библиотеки MALLET для Java: Начало работы с моделированием тем и MALLET


4

Тематические модели обычно не контролируются . Существуют также «контролируемые тематические модели»; но даже тогда они пытаются моделировать темы в классе .

Например, у вас может быть класс «футбол», но в этом классе могут быть темы, связанные с конкретными матчами или командами.

Проблема с темами заключается в том, что они со временем меняются; рассмотрим пример совпадений выше. Такие темы могут возникать и исчезать снова.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.