Вопросы с тегом «character-encoding»

Кодировка символов относится к способу представления символов в виде последовательности байтов. Кодировка символов для Интернета определяется в стандарте кодирования.

6
Код ASCII 7-битный или 8-битный?
Мой учитель сказал мне, что ASCII - это 8-битная схема кодирования символов. Но он определен только для кодов 0-127, что означает, что его можно уместить в 7 бит. Так нельзя ли утверждать, что бит ASCII на самом деле является 7-битным кодом? И что мы вообще имеем в виду, когда говорим, …


7
Как надежно угадать кодировку между MacRoman, CP1252, Latin1, UTF-8 и ASCII
На работе кажется, что ни одна неделя не проходит без каких-либо потасовок, связанных с кодированием, бедствий или катастроф. Проблема обычно исходит от программистов, которые думают, что могут надежно обработать «текстовый» файл без указания кодировки. Но ты не можешь. Поэтому отныне было решено запретить файлам иметь имена, оканчивающиеся на *.txtили *.text. …

3
JsonParseException: недопустимый символ без кавычек ((CTRL-CHAR, код 10)
Я пытаюсь использовать org.apache.httpcomponentsRest API, который будет отправлять данные в формате JSON в API. Я получаю это исключение: Вызвано: com.fasterxml.jackson.core.JsonParseException: недопустимый символ без кавычек ((CTRL-CHAR, код 10)): для включения в строку необходимо экранировать с помощью обратной косой черты. Причина в том, что ctrl-charон включен в строку JSON. Есть ли способ …

10
Сколько символов может кодировать UTF-8?
Если UTF-8 имеет 8 бит, не означает ли это, что может быть не более 256 различных символов? Первые 128 кодовых точек такие же, как в ASCII. Но в нем говорится, что UTF-8 может поддерживать до миллиона символов? Как это работает?

3
"& # 160;" замена «& nbsp;»?
В моем приложении ASP.NET я пытался добавить несколько пробелов между двумя текстовыми полями, набрав пробел. Эквивалентный источник HTML был  вместо  . Поэтому я просто хотел проверить: это новая замена пустому пространству? Если да, есть идеи, почему они изменились?

10
Полный набор символов, чтобы избежать исключения «java.nio.charset.MalformedInputException: длина ввода = 1»?
Я создаю простую программу wordcount на Java, которая читает текстовые файлы каталога. Однако я продолжаю получать ошибку: java.nio.charset.MalformedInputException: Input length = 1 из этой строки кода: BufferedReader reader = Files.newBufferedReader(file,Charset.forName("UTF-8")); Я знаю, что, вероятно, получил это, потому что я использовал, Charsetкоторый не включал некоторые символы в текстовых файлах, некоторые из …

2
Сколько бит или байтов содержится в символе? [закрыто]
Трудно сказать, о чем здесь спрашивают. Этот вопрос двусмысленный, расплывчатый, неполный, чрезмерно широкий или риторический, и на него нельзя разумно ответить в его нынешней форме. Если вам нужна помощь в прояснении этого вопроса и его повторном открытии, посетите Справочный центр . Закрыт 9 лет назад . Сколько битов или байтов …

9
Чтение CSV-файла UTF8 с помощью Python
Я пытаюсь прочитать CSV-файл с акцентированными символами с помощью Python (только французские и / или испанские символы). Основываясь на документации Python 2.5 для csvreader ( http://docs.python.org/library/csv.html ), я придумал следующий код для чтения файла CSV, поскольку csvreader поддерживает только ASCII. def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode …

6
Как найти кодировку / кодировку по умолчанию в Java?
Очевидный ответ - использовать, Charset.defaultCharset()но недавно мы обнаружили, что это может быть неправильный ответ. Мне сказали, что результат несколько раз отличается от реальной кодировки по умолчанию, используемой классами java.io. Похоже, в Java есть 2 набора кодировки по умолчанию. У кого-нибудь есть идеи по этому поводу? Нам удалось воспроизвести один случай …

6
Проблемы с кодировкой вывода журнала git в командной строке Windows 10
Проблема Как сделать так, чтобы git logвывод команды правильно отображался в командной строке Windows? пример Как видите, я могу правильно набирать диакритические символы, но на git logвыходе это каким-то образом экранировано. Согласно UTF-8таблице кодирования, коды между угловыми скобками ( <и >) на выходе соответствуют ранее введенным git configпараметрам. Я попытался …

5
Python: преобразование из ISO-8859-1 / latin1 в UTF-8
У меня есть эта строка, которая была декодирована из Quoted-printable в ISO-8859-1 с помощью модуля электронной почты. Это дает мне строки вроде «\ xC4pple», которые соответствуют «Äpple» («Apple» на шведском языке). Однако я не могу преобразовать эти строки в UTF-8. >>> apple = "\xC4pple" >>> apple '\xc4pple' >>> apple.encode("UTF-8") Traceback …

13
Сохраните все файлы в проекте Visual Studio как UTF-8
Интересно, можно ли сохранить все файлы в проекте Visual Studio 2008 в определенной кодировке символов. У меня есть решение со смешанными кодировками, и я хочу сделать их одинаковыми (UTF-8 с подписью). Я знаю, как сохранять отдельные файлы, но как насчет всех файлов в проекте?

3
Как удалить символы, отличные от UTF-8, из текстового файла
У меня есть куча файлов на арабском, английском и русском языках, закодированных в utf-8. Пытаясь обработать эти файлы с помощью сценария Perl, получаю такую ​​ошибку: Malformed UTF-8 character (fatal) Проверяя содержимое этих файлов вручную, я обнаружил в них странные символы. Сейчас ищу способ автоматического удаления этих символов из файлов. Есть …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.