«А» относится к «В» и «С». Как я могу показать, что «B» и «C» могут в этом контексте также быть связаны?
Пример:
Вот несколько заголовков о недавней бродвейской пьесе:
- «Гленгарри Глен Росс» Дэвида Мамета, в главной роли Аль Пачино, открывается на Бродвее
- Аль Пачино в «Гленгарри Глен Росс»: что думают критики?
- Аль Пачино зарабатывает слабые обзоры для Бродвейского поворота
- Театральное обозрение: Гленгарри Глен Росс твердо продает свои звезды
- Гленгарри Глен Росс; Эй, кто убил Klieg Lights?
Проблема:
Выполнение нечеткого совпадения строк над этими записями установит некоторые отношения, но не другие, даже если читатель может выбрать их из контекста в гораздо больших наборах данных.
Как мне найти отношения, которые предполагают, что № 3 связан с № 4? Оба они могут быть легко связаны с # 1, но не друг с другом.
Есть ли (Googlable) имя для такого рода данных или структуры? Какой алгоритм я ищу?
Цель:
Учитывая 1000 заголовков, система, которая автоматически предполагает, что эти 5 пунктов, вероятно, все об одном и том же.
Честно говоря, я так давно запрограммировал, что не могу правильно сформулировать эту проблему. (Я не знаю, что я не знаю, если это имеет смысл).
Это личный проект, и я пишу его на Python. Заранее спасибо за любую помощь, советы и советы!