Вопросы с тегом «unicode»

Unicode - это стандарт кодирования, представления и обработки текста с целью поддержки всех символов, необходимых для письменного текста, включая все системы письма, технические символы и знаки препинания.

17
Лучший способ конвертировать текстовые файлы между наборами символов?
Какой самый быстрый и простой инструмент или метод для преобразования текстовых файлов между наборами символов? В частности, мне нужно конвертировать из UTF-8 в ISO-8859-15 и наоборот. Все идет: одна строка на вашем любимом языке сценариев, инструменты командной строки или другие утилиты для ОС, веб-сайтов и т. Д. Лучшие решения на …

8
Каков наилучший способ удалить акценты в строке Unicode Python?
У меня есть строка Unicode в Python, и я хотел бы удалить все акценты (диакритические знаки). Я нашел в Интернете элегантный способ сделать это на Java: преобразовать строку Unicode в ее длинную нормализованную форму (с отдельным символом для букв и диакритических знаков) удалить все символы, у которых тип Unicode "диакритический". …



12
UTF-8, UTF-16 и UTF-32
Каковы различия между UTF-8, UTF-16 и UTF-32? Я понимаю, что все они будут хранить Unicode, и что каждый использует различное количество байтов для представления символа. Есть ли преимущество выбора одного над другим?
487 unicode  utf-8  utf-16  utf  utf-32 

12
Сохранение текстов utf-8 в json.dumps как UTF8, а не как escape-последовательность
образец кода: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Проблема: она не читается человеком. Мои (умные) пользователи хотят проверять или даже редактировать текстовые файлы с помощью дампов JSON (и я бы предпочел не использовать XML). Есть ли способ сериализации объектов в строки JSON UTF-8 …
474 python  json  unicode  utf-8  escaping 

30
Лучший способ перевернуть строку
Я просто должен был написать функцию обратного преобразования строк в C # 2.0 (т.е. LINQ недоступен) и придумал это: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; …

18
UnicodeDecodeError при чтении CSV-файла в Pandas с Python
Я запускаю программу, которая обрабатывает 30 000 похожих файлов. Случайное число из них останавливается и выдает эту ошибку ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, …

9
В чем разница между ASCII и Unicode?
В чем точная разница между Unicode и ASCII? Всего ASCII имеет 128 символов (256 в расширенном наборе). Есть ли какие-либо спецификации размера для символов Юникода?
408 unicode  ascii 

9
Что такое Юникод, UTF-8, UTF-16?
Что является основой для Unicode и зачем нужен UTF-8 или UTF-16? Я исследовал это в Google и искал здесь, но мне это не ясно. В VSS при сравнении файлов иногда появляется сообщение о том, что два файла имеют разные UTF. Почему это так? Пожалуйста, объясните в простых терминах.

5
Почему 2+ 40 равно 42?
Я был озадачен, когда коллега показал мне эту строку с предупреждением JavaScript 42. alert(2+ 40); Выполнить фрагмент кодаСкрыть результатыРазвернуть фрагмент Быстро выясняется, что то, что выглядит как знак минус, на самом деле является загадочным символом Юникода с явно различной семантикой. Это заставило меня задуматься, почему этот символ не генерирует синтаксическую …

11
Как я grep для всех не-ASCII символов?
У меня есть несколько очень больших файлов XML, и я пытаюсь найти строки, которые содержат символы не ASCII. Я пробовал следующее: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Но это возвращает каждую строку в файле, независимо от того, содержит ли строка символ в указанном диапазоне. У меня неправильный синтаксис или я делаю что-то …
359 regex  unix  unicode  grep 


6
Как найти длину строки в R
Как найти длину строки (количество символов в строке), не разбивая ее на R? Я знаю, как найти длину списка, но не строки. А как насчет строк Unicode? Как найти длину (в байтах) и количество символов (руны, символы) в строке Unicode? Связанный вопрос: Как найти «реальное» количество символов в строке Unicode …

14
Юникод (UTF-8) чтение и запись в файлы на Python
У меня какой-то мозговой сбой в понимании чтения и записи текста в файл (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) («u'Capit \ xe1n», «Capit \ xc3 \ xa1n») print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' …
331 python  unicode  utf-8  io 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.