В чем разница между этими моделями представления текста: мешок слов и модель векторного пространства?
В чем разница между этими моделями представления текста: мешок слов и модель векторного пространства?
Ответы:
Мешок слов и модель векторного пространства относятся к различным аспектам характеристики текста, такого как документ. Они хорошо описаны в учебнике «Обработка речи и языка» Jurafsky and Martin, 2009, в разделе 23.1 «Поиск информации». Более краткая ссылка - «Введение в поиск информации» Мэннинга, Рагхавана и Шютце, 2008, в разделе «Модель векторного пространства для оценки».
Мешок слов относится к тому, какую информацию вы можете извлечь из документа (а именно, слова в униграмме). Модель векторного пространства относится к структуре данных для каждого документа (а именно, к вектору признаков пар терминов и весовых терминов). Оба аспекта дополняют друг друга.
Более конкретно:
Мешок слов : для данного документа вы извлекаете только слова с униграммой (иначе термины), чтобы создать неупорядоченный список слов. Нет POS-тегов, нет синтаксиса, нет семантики, нет позиции, нет биграмм, нет триграмм. Только сами слова в униграмме, что делает кучу слов для представления документа. Таким образом: мешок слов .
Модель векторного пространства . Учитывая набор слов, извлеченных из документа, вы создаете вектор элемента для документа, где каждый элемент представляет собой слово (термин), а значение элемента представляет собой весовой коэффициент. Термин вес может быть:
Таким образом, весь документ является вектором объектов, и каждый вектор объектов соответствует точке в векторном пространстве . Модель для этого векторного пространства такова, что для каждого члена в словаре имеется ось, и поэтому векторное пространство является V- мерным, где V - размер словаря. Затем вектор концептуально также должен быть V- мерным с признаком для каждого словарного термина. Однако, поскольку словарь может быть большим (порядка V = 100 000 слагаемых), вектор признаков документа обычно будет содержать только те термины, которые встречаются в этом документе, и опускать термины, которые этого не делали. Такой вектор признаков считается разреженным .
Таким образом, примерное векторное представление документа может выглядеть так:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
где этот примерный вектор имеет идентификатор документа (например, 42), метку "правда-земля" (например, политику) и список признаков и значений признаков, содержащих пары терминов и терминов частоты. Здесь видно, что слово «отсутствует» встречалось в этом документе 2 раза.
Если с помощью Bag of Words вы назначаете частоту слов элементу матрицы термина документа, а в матричной матрице элементов векторного пространства элементы термина документа являются достаточно общими, пока операции (точечное произведение) в векторном пространстве имеют смысл (веса tf-idf, для пример)?