Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?

24

Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу контролируемого размера.

Часто я вижу, как пользователи строят свой вектор признаков, используя TFIDF. Другими словами, частоты текста, отмеченные выше, уменьшены на частоту слов в корпусе. Я понимаю, почему TFIDF был бы полезен для выбора «самых отличительных» слов данного документа для, скажем, отображения человеку-аналитику. Но в случае категоризации текста с использованием стандартных контролируемых методов ОД, зачем беспокоиться о снижении веса по частоте документов в корпусе? Разве ученик сам не решит важность присвоения каждому слову / комбинации слов? Буду признателен за ваши мысли о том, какую ценность добавляет ИДФ, если таковая имеется.

machine-learning classification text-mining

— shf8888
источник

29

Ответ очень прост: TF-IDF может достигать лучших результатов, чем простые термины частоты, в сочетании с некоторыми контролируемыми методами.

Канонический пример использует косинусное сходство как меру сходства между документами. Принимая косинус угла между векторным представлением документов TF-IDF, можно успешно извлечь соответствующие похожие документы с более высокой точностью, чем один TF.

Это связано с тем, что IDF снижает вес общих слов и выделяет необычные слова в документе. Большинство новостных статей не о страусах, поэтому новостная статья, содержащая «страуса», необычна, и мы хотели бы знать это, когда пытаемся найти документы, которые похожи.

Но в случае категоризации текста с использованием стандартных контролируемых методов ОД, зачем беспокоиться о снижении веса по частоте документов в корпусе? Разве ученик сам не решит важность присвоения каждому слову / комбинации слов?

$x$ $y$ $x$ $y$ $y$ ), тогда мы упростили задачу себе и нашим бедным перегруженным компьютерам! Я думаю, что это недооцениваемый компонент в этой области - люди тратят много времени на изучение и анализ алгоритмов, потому что они не зависят от предметной области, но, зная больше о ваших данных и о проблеме, которую вы пытаетесь решить, можно предложить пути для улучшенный сбор данных или представление данных, которые делают задачу намного проще - и настолько простой, что модель изощренной сложности не требуется.

Ряд ресурсов можно найти здесь , который я воспроизвожу для удобства.

К. Спарк Джонс. «Статистическая интерпретация термина специфичность и его применение в поиске». Журнал документации, 28 (1). 1972.
Г. Солтон и Эдвард Фокс и У Гарри Ву. Msgstr "Расширенный поиск логической информации". Связь АСМ, 26 (11). 1983.
Дж. Солтон и М.Дж. Макгилл. «Введение в современный информационный поиск». 1983
Г. Солтон и К. Бакли. «Термин-взвешивание подходов в автоматическом поиске текста». Обработка информации и управление, 24 (5). 1988.
Х. Ву и Р. Лук и К. Вонг и К. Квок. «Интерпретация весовых коэффициентов TF-IDF как принятие решений об актуальности». ACM Сделки в информационных системах, 26 (3). 2008.

— Sycorax говорит восстановить Монику
источник

Спасибо за примечание @ user777! Ценить это. Я смотрю на эти статьи. Существуют ли общие классы алгоритмов, которые мы ожидаем получить от TFIDF преимущественно по сравнению с просто TF?

— shf8888

@ shf8888 Я не уверен, есть ли общие классы, где один лучше. Это возможно! Насколько мне известно, первый рефлекс того, кто работает над задачей НЛП, - это попробовать TF, а затем TF-IDF в качестве базовых методов, прежде чем переходить к более сложной модели. Таким образом, вы можете количественно оценить, насколько повышенную производительность вы приобретаете для увеличения усилий, затрачиваемых на использование все более сложных моделей.

— Sycorax говорит восстановить Monica

Большое спасибо! Ну, ответ, что «эмпирически TFIDF может обеспечить повышенную производительность по сравнению с TF с некоторыми алгоритмами» (если вы не возражаете против моего резюме из одного предложения), безусловно, хорош с моей точки зрения. Спасибо за ссылки.

— shf8888

2

В типичном случае у вас может быть намного больше документов в вашем корпусе, чем помеченных документов. Это означает, что IDF может быть рассчитан гораздо более точно и полностью при использовании всего корпуса.

Далее рассмотрим случай, когда корпус, на который вы можете получить руки, все помечен или помечен как «достаточно большой». В этом случае количество итераций, необходимых для обучения, может быть меньше при использовании TfIDF, потому что алгоритму обучения не нужно будет учиться так много.

Наконец, в этом же случае вы также можете указать только tf или tf и idf отдельно (или даже включить tfidf). Я думаю, что это может привести к лучшим результатам, например, при использовании сложной функции ядра.

— Сюри
источник