У меня есть несколько повторяющихся сообщений в Maildir моего IMAP-сервера. Какой лучший способ их удалить?
Некоторые важные моменты:
- Shared Message-ID обычно является достаточно хорошим определением дубликата. Крошечный скрипт, который удаляет все, кроме одного из повторяющихся сообщений, будет работать.
- Иногда необходимо найти дубликаты на основе общих тел сообщений. Какое здесь разумное определение? Побитовый эквивалент? Как насчет странных различий в переносе строк, экранировании, кодировании символов?
- Иногда между «повторяющимися» сообщениями есть существенная разница. Как лучше всего рассмотреть различия в наборах «дублирующих» сообщений? Diffs?