Связь и разница между поиском и извлечением информации?

11

Поиск информации - это деятельность по получению информационных ресурсов, имеющих отношение к информационным потребностям, из набора информационных ресурсов. Поиск может быть основан на метаданных или полнотекстовой индексации.

Из Википедии

Извлечение информации (IE) - это задача автоматического извлечения структурированной информации из неструктурированных и / или полуструктурированных машиночитаемых документов. В большинстве случаев эта деятельность касается обработки текстов на человеческом языке посредством обработки естественного языка (НЛП). Недавние действия в обработке мультимедийных документов, такие как автоматическое аннотирование и извлечение контента из изображений / аудио / видео, могут рассматриваться как извлечение информации.

Каковы отношения и различия между поиском и извлечением информации?

Спасибо!

data-mining natural-language-processing

— Тим
источник

9

Поиск информации является на основе запроса - указать , какая информация вам нужна , и она возвращается в понятной человеку форме.

Извлечение информации - это структурирование неструктурированной информации - учитывая некоторые источники, вся (соответствующая) информация структурирована в форме, которую будет легко обрабатывать. Это не обязательно будет в понятной человеку форме - это может быть только для использования компьютерных программ.

Некоторые источники:

— Антон
источник

7

http://gate.ac.uk/ie/ дает очень хорошее, краткое различие:

Извлечение информации не является поиском информации: извлечение информации отличается от традиционных методов тем, что оно не восстанавливает из коллекции подмножество документов, которые, как мы надеемся, имеют отношение к запросу, основано на поиске по ключевым словам (возможно, дополненным тезаурусом). Вместо этого цель состоит в том, чтобы извлечь из документов (которые могут быть на разных языках) существенные факты о заранее заданных типах событий, объектов или отношений. Затем эти факты обычно автоматически вводятся в базу данных, которая затем может использоваться для анализа данных на предмет тенденций, для предоставления сводки на естественном языке или просто для предоставления доступа в режиме онлайн.

Чтобы выразить это наглядно:

Информационный поиск получает комплекты соответствующих документов:

Извлечение информации получает факты из документов:

— Франк Дернонкур
источник

2

С точки зрения моделирования, поиск информации представляет собой глубокую область, основанную на нескольких дисциплинах, включая статистику, математику, лингвистику, искусственный интеллект, а теперь и науку о данных. На практике эти модели применяются в отношении текста в корпусах, чтобы обнаружить закономерности в данных. Мало того, что модели IR перекрываются при их использовании, они могут «сотрудничать» с другими моделями, такими как модели k-средних или k-ближайших соседей, а также могут применяться другие модели с точки зрения вычислительной лингвистики, такие как LDA / LDI и тема моделирования Затем, в конце игр является своим родом визуализации информации этого открытия - после того, как ранжирование, кластеризации и агрегирования работы. Поиск информации может показаться загадочной дисциплиной, но серьезные усилия, которые высоко ценятся, собирается открыть область для более глубокого понимания каждой модели и взаимодействия между моделями. Цитирую «Синтез Лекции по информатике Concepts, поиск и услуги» серии, как лучшее место, чтобы копаться в качестве основы для ИК.

Хотя я не полностью разделяю IR и извлечение информации, возможно, подмножество IE, извлечение уровня концепции, применяет шаблоны IR вместе с правилами вывода на основе AI для извлечения связанных онтологий. Графическая природа этих отношений улучшается с помощью моделирования онтологий в OWL и RDF, а также с базами данных графов, которые допускают менее строгий или строгий набор моделирования отношений и допускают большее количество связей на поверхности, а не контролируемые как таковые. Способность динамически наращивать извлечение информации делает ее «дисциплину» чрезвычайно интересной для исследователей.

И IR, и IE разыгрывают в наших собственных значимых «сущностях момента» - некоторые называют «динамическими онтологиями» - некоторые из них Palantir - нам нужны шаблоны, модели, симуляции и визуализации этих важных сущностей для ведения бизнеса в перед лицом новых источников информации и изменения существующей информации. Концептуальное, реляционное, дефиниционное, шаблонное и онтологическое моделирование должны быть гибкими и их визуализация должна быть одинаковой. Тяжелая работа ИИ-двигателей, таких как Уотсон, в области извлечения информации и вывода информации привлекла внимание к ИЭ и откровенно ИК-полям. Также повсеместное распространение обработки естественного языка и машинного обучения привлекают внимание к моделям и движкам IR и IE. Влияние IR-моделей на поиск и SEO, а также на семантическое веб-моделирование является одним из таких "

— MethodyM
источник

1

Поиск информации о возвращении информации, которая имеет отношение к конкретному запросу или области интересов. Обратите внимание, что эта информация также может быть в форме общих документов, конечно, поисковые системы являются ярким примером такой задачи. Я бы сказал, что наиболее важными объектами, распознаваемыми для поиска информации, являются начальный набор документов / информации и запрос, в котором указано «что искать».

С другой стороны, извлечение информации - это больше извлечение (или вывод) общих знаний (или отношений) из набора документов или информации. Обратите внимание, что здесь все содержимое документов можно рассматривать как единое целое, совокупность данных, из которых извлекаются знания. Конечно, также для этого случая вы можете как-то указать, что вы хотите извлечь, но это больше о свойствах / отношениях, чем конкретных предметах / темах. Свойства являются более специфичными для домена, в то время как обычно отношения охватывают более общие сценарии.

Опять же, с помощью поисковых систем вы запрашиваете сайты, которые, скорее всего, содержат информацию по этой конкретной теме. Это пример поиска информации .

Например, для извлечения информации вы можете попросить извлечь все названия городов или адреса электронной почты, которые появляются в совокупности документов. Вы могли бы даже пойти намного более общим, прося просто извлечь знания. Как вы можете видеть, это действительно универсально, но это может быть достигнуто, например, путем получения триплетов объекта subject-action-object для каждого действительного предложения текста (это лучше всего подходит для текстов на естественном языке).

Если вам интересно, эти (и другие) темы подробно объясняются в главе «Обработка естественного языка» книги « Искусственный интеллект: современный подход» .

— 5agado
источник