Есть много простых текстовых файлов, которые были закодированы в различных кодировках.
Я хочу преобразовать их все в UTF-8, но прежде чем запускать iconv, мне нужно знать его оригинальную кодировку. У большинства браузеров есть Auto Detect
опция в кодировках, однако я не могу проверить эти текстовые файлы один за другим, потому что их слишком много.
Только узнав оригинальную кодировку, я смогу затем преобразовать тексты iconv -f DETECTED_CHARSET -t utf-8
.
Есть ли какая-нибудь утилита для определения кодировки простых текстовых файлов? Это не обязательно должно быть на 100% идеально, я не возражаю, если в 1 000 000 файлов было неправильно преобразовано 100 файлов.
python-chardet
в репозитории Ubuntu Universe.