В Unicode некоторые комбинации символов имеют более одного представления.
Например, символ ä может быть представлен как
- «ä», то есть кодовая точка U + 00E4 (два байта
c3 a4
в кодировке UTF-8) или как - «ä», то есть две кодовые точки U + 0061 U + 0308 (три байта
61 cc 88
в UTF-8).
Согласно стандарту Unicode, эти два представления эквивалентны, но в разных «формах нормализации», см. UAX # 15: Формы нормализации Unicode .
В наборе инструментов Unix есть все виды инструментов преобразования текста , на ум приходят sed , tr , iconv , Perl. Как я могу быстро и легко конвертировать NF в командной строке?
perl -MUnicode::Normalization -e 'print NFC(
... э-э, что здесь происходит сейчас ...