Имея много текстовых документов (на естественном языке, неструктурированных), каковы возможные способы аннотирования их некоторыми семантическими метаданными? Например, рассмотрим короткий документ:
I saw the company's manager last day.
Чтобы иметь возможность извлекать информацию из нее, она должна быть снабжена дополнительными данными, чтобы быть менее двусмысленной. Процесс поиска таких метаданных не ставится под сомнение, поэтому предположим, что это делается вручную. Вопрос в том, как хранить эти данные таким образом, чтобы их дальнейший анализ можно было сделать более удобным / эффективным способом?
Возможный подход заключается в использовании тегов XML (см. Ниже), но он кажется слишком многословным, и, возможно, существуют лучшие подходы / рекомендации для хранения таких метаданных в текстовых документах.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.