Мне приходится иметь дело с файлом, который имеет много невидимых управляющих символов, таких как «справа налево» или «не присоединяемый с нулевой шириной», пробелами, отличными от нормального пробела и т. Д., И у меня возникают проблемы с этим.
Теперь я хотел бы как-то просмотреть все буквы в данном файле, букву за буквой (я хотел бы сказать «слева направо», но я, к сожалению, имею дело с языком справа налево) , как кодовые точки Юникода, используя только основные инструменты Баш (как vi
, less
, cat
...). Возможно ли это как-то?
Я знаю, что могу отобразить файл в шестнадцатеричном формате hexdump
, но мне придется пересчитать кодовые точки. Я действительно хочу увидеть реальные кодовые точки Unicode, чтобы я мог найти их в Google и выяснить, что происходит.
редактировать: я добавлю, что я не хочу перекодировать его в другую кодировку (потому что это то, что я узнаю в Интернете). У меня есть файл в UTF8, и это нормально. Я просто хочу знать точные кодовые точки всех букв.