Вопросы с тегом «character-encoding»

Вопросы, которые касаются различных представлений символов и наборов символов, таких как: ASCII, UTF-8, EBCDIC и другие. Часто встречается при перемещении файлов между операционными системами, которые кодируют новые строки с возвратом каретки и / или символами новой строки.

4
Как изменить кодировку с расширенного ASCII-текста не-ISO, с ограничителями строки CRLF, на UTF-8?
У меня есть текстовый файл: $ file -i x.txt x.txt: text/plain; charset=unknown-8bit $ file x.txt x.txt: Non-ISO extended-ASCII text, with CRLF line terminators И есть некоторые символы, которые неправильно закодированы: trwa³y, sta³y, usuwaæ Как я могу изменить кодировку этого файла на UTF-8? До сих пор я пробовал следующий способ: $ …

4
Массовое переименование (или правильное отображение) файлов со специальными символами
У меня есть несколько каталогов и подкаталогов, которые содержат файлы со специальными символами, например, этот файл: robbie@phil:~$ ls test�sktest.txt test?sktest.txt Find обнаруживает escape-последовательность: robbie@phil:~$ find test�sktest.txt -ls 424512 4000 -rwxr--r-x 1 robbie robbie 4091743 Jan 26 00:34 test\323sktest.txt Единственная причина, по которой я могу даже ввести их имена в консоли, …

2
Конвертировать .docx в .pdf с помощью pandoc
Я пытаюсь преобразовать .docx, полученный по почте, в правильный pdf с помощью pandoc (я использую GNU / Linux). У меня есть ошибка, связанная с кодировкой символов: $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream Я попытался определить кодировку: $ file -i file .docx file.docx: …

2
Команда для получения списка символов в данном классе символов в текущей локали
Что может быть способ , чтобы получить список всех символов в заданном классе символов (как blank, alpha, digit...) в текущей локали. Например, LC_ALL=en_GB.UTF-8 that-command blank в идеале в моей системе Debian должно отображаться что-то вроде: 09 U+0009 HORIZONTAL TAB 20 U+0020 SPACE e1 9a 80 U+1680 OGHAM SPACE MARK e1 …

3
Кодировки символов, поддерживаемые more, cat и less
У меня есть текстовый файл в следующем формате file: Текст ISO-8859, с ограничителями строки CRLF Этот файл содержит текст на французском языке с акцентами. Моя оболочка способна отображать акцент и emacsв режиме консоли способна правильно отображать эти акценты. Моя проблема в том more, catи lessинструменты не отображают этот файл правильно. …

6
Как правильно распаковать архив ZIP с именами на иврите?
Кто-то прислал мне ZIP-файл, содержащий файлы с ивритскими именами (и созданный в Windows, не уверен, каким инструментом). Я использую LXDE на Debian Stretch. Менеджер архивов Gnome распаковывает файл, но ивритские символы искажены. Я думаю, что я получаю октеты UTF-8, расширенные до символов Юникода, например, у меня есть файл, имя которого …

1
Иностранные символы не будут отображаться в SSH
У меня есть некоторые проблемы с использованием sshи удаленного сервера (к которому у меня нет доступа администратора). В частности, там есть несколько папок с корейским и кириллическим текстом. Когда я отображаю содержимое родительской папки с lsпомощью символов, они экранируются как «?». Возможно, следует отметить, что корейские символы, кажется, убегают гораздо …

3
Как преобразовать смайлик, указанный кодом U + xxxxx, в utf-8?
Смайлики, по-видимому, указываются с использованием формата U + xxxxx, где каждый x является шестнадцатеричной цифрой. Например, U + 1F615 является официальным кодом Консорциума Unicode для «запутанного лица» 😕 Как я часто путаюсь, я очень привязан к этому символу. Представление U + 1F615 сбивает меня с толку, потому что я думал, …

2
SSH и кодировка символов
Когда я sshв свой VPS, у меня irssiработает на экране. Когда кто-то отправляет символ Unicode (например, © или €), irssiотображается мусор, когда я использую его через экран в sshсеансе. Если я подключусь к нему irssiс помощью прокси-модуля irssi, из irssi, запущенного на моем локальном компьютере, он будет отображаться правильно. Аналогично, …

3
Не можете использовать `cut -c` (` --characters`) с UTF-8?
Команда cutимеет опцию -cдля работы с символами вместо байтов с опцией -b. Но это, похоже, не работает, в en_US.UTF-8локали: Второй байт дает второй символ ASCII (который точно так же кодируется в UTF-8): $ printf 'ABC' | cut -b 2 B но не дает второго из трех греческих не-ASCII символов в …

3
Печать десятичного знака в символ ascii, моя команда не выводит, как задумано
Я хотел вывести строку всех символов ascii с помощью следующей команды for i in `seq 32 127`; do printf "%c" $i; done Вывод вышеуказанной команды: 33333334444444444555555555566666666667777777777.............. Это первая (слева) цифра каждого числа. Просматривая этот сайт, я наткнулся на ответ на мою проблему. Как напечатать все печатные символы ASCII в CLI? …

2
iconv Недопустимая последовательность ввода - почему?
При попытке преобразовать текстовый файл в его ASCII-эквивалент я получаю сообщение об ошибке iconv: illegal input sequence at position. Я использую команду iconv -f UTF-8 -t ascii//TRANSLIT file Оскорбительный персонаж есть æ. Сам текстовый файл присутствует здесь . Почему это говорит о недопустимой последовательности? Вводимый символ является правильным символом UTF-8 …

2
Может ли vim отображать только символы ASCII и обрабатывать другие байты как двоичные данные?
Я уже знаю vim -b, однако, в зависимости от используемой локали, он отображает многобайтовые символы (например, UTF-8) в виде отдельных букв. Как я могу попросить vimотображать только печатные символы ASCII и обрабатывать остальные как двоичные данные, независимо от кодировки?

2
Wget возвращает двоичный файл вместо HTML?
Я использую wget для загрузки статической HTML-страницы. W3C Validator сообщает, что страница закодирована в UTF-8. Тем не менее, когда я загружаю файл после загрузки, я получаю кучу глупостей. Я нахожусь на Ubuntu, и я думал, что кодировка по умолчанию была UTF-8? Вот что говорит мой файл локали. Почему это происходит …

5
Как установить резервную кодировку в UTF-8 в Firefox?
Я написал норвежский документ по уценке: $ file brukerveiledning.md brukerveiledning.md: UTF-8 Unicode text Я преобразовал его в HTML с помощью markdownкоманды: $ markdown > brukerveiledning.html < brukerveiledning.md $ file brukerveiledning.html brukerveiledning.html: UTF-8 Unicode text Тем не менее, Firefox настаивает на использовании кодировки «windows-1252», ломая не-ASCII символы. Я попытался установить замену …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.