У меня есть файл в UTF-8, который содержит тексты на нескольких языках. Во многом это имена людей. Мне нужно преобразовать его в ASCII, и мне нужно, чтобы результат выглядел максимально прилично.
Есть много способов приблизиться к преобразованию из более широкой кодировки в более узкую. Простейшим преобразованием было бы заменить все символы, не входящие в ASCII, на некоторый заполнитель, например '_' Если я знаю язык, на котором написан файл, есть дополнительные возможности, такие как латинизация.
Какой инструмент Unix или библиотека языков программирования, доступные в Unix, могут дать мне достойное (лучшее из возможного) преобразование из UTF-8 в ASCII?
Большая часть текста написана на европейских языках латинского типа.
iconv
и tr
, есть Unidecode . Я не знаком с этим, но он может делать то, что вы хотите, если вы можете использовать Python.