У меня есть тысячи списков строк, и каждый список имеет около 10 строк. Большинство строк в данном списке очень похожи, хотя некоторые строки (редко) полностью не связаны с другими, а некоторые строки содержат нерелевантные слова. Их можно считать шумными вариациями канонической струны. Я ищу алгоритм или библиотеку, которая преобразует каждый список в эту каноническую строку.
Вот один из таких списков.
- Звездные войны: Эпизод IV Новая Надежда | StarWars.com
- Звёздные войны. Эпизод IV - Новая надежда (1977)
- Звездные войны: Эпизод IV - Новая надежда - Гнилые помидоры
- Наблюдайте за Звездными Войнами: Эпизод IV - Новая Надежда Онлайн Бесплатно
- Звездные войны (1977) - Величайшие фильмы
- [REC] 4 плаката обещают смерть от подвесного мотора - SciFiNow
Для этого списка любая строка, соответствующая регулярному выражению ^Star Wars:? Episode IV (- )?A New Hope$
, будет приемлемой.
Я посмотрел курс Эндрю Нг по машинному обучению на Coursera, но мне не удалось найти подобную проблему.