Вопросы с тегом «unicode»

Unicode - это стандарт кодирования, представления и обработки текста с целью поддержки всех символов, необходимых для письменного текста, включая все системы письма, технические символы и знаки препинания.

5
Действительно хороший, плохой пример тестовых данных UTF-8 [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 3 года назад . Уточните этот вопрос Итак, у нас есть шпаргалка по XSS для проверки нашей фильтрации XSS - …
88 unicode  utf-8 

12
Удалите диакритические знаки (ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ from) из символов Unicode
Я ищу алгоритм, который может отображать символы с диакритическими знаками ( тильда , циркумфлекс , каретка , умлаут , карон ) и их «простой» символ. Например: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ …

8
Как заменить непечатаемые символы Unicode в Java?
Следующие символы заменят управляющие символы ASCII (сокращение для [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Следующее заменит все непечатаемые символы ASCII (сокращение для [\p{Graph}\x20]), включая символы с диакритическими знаками: my_string.replaceAll("[^\\p{Print}]", "?"); Однако ни то, ни другое не работает для строк Unicode. Есть ли у кого-нибудь хороший способ удалить непечатаемые символы из строки Unicode?
88 java  string  unicode 

12
Актуален ли ТЧАР?
Я новичок в программировании для Windows, и после прочтения книги Петцольда мне интересно: это еще хорошая практика , чтобы использовать TCHARтип и _T()функцию , чтобы объявить строки или если я должен просто использовать wchar_tи L""строки в новом коде? Я буду ориентироваться только на Windows 2000 и выше, и мой код …
87 c++  c  windows  unicode  wchar-t 


6
Использование 'use utf8;' дает мне "Широкий характер в печати"
Если я запустил следующую программу Perl: perl -e 'use utf8; print "鸡\n";' Я получаю это предупреждение: Wide character in print at -e line 1. Если я запустил эту программу Perl: perl -e 'print "鸡\n";' Я не получаю предупреждения. Я думал, что use utf8необходимо использовать символы UTF-8 в Perl-скрипте. Почему это …
86 perl  unicode  utf-8 

2
Regex: что такое InCombiningDiacriticalMarks?
Очень хорошо известен следующий код для преобразования символов с диакритическими знаками в обычный текст: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Я заменил свой метод "ручной работы" на этот, но мне нужно понимать "регулярное выражение" в replaceAll 1) Что такое «InCombiningDiacriticalMarks»? 2) Где это документация? (и подобные?) Спасибо.
86 java  regex  unicode 

2
Что «не так» с C ++ wchar_t и wstrings? Какие есть альтернативы широким символам?
Я видел, как много людей в сообществе C ++ (особенно ## c ++ на freenode) возражали против использования wstringsи wchar_tи их использования в API Windows. Что на самом деле «не так» с wchar_tи wstring, и если я хочу поддержать интернационализацию, каковы альтернативы широким символам?

1
WebClient.DownloadString приводит к искажению символов из-за проблем с кодировкой, но браузер в порядке
Следующий код: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); приводит к переменной, textкоторая содержит, среди прочего, строку "$ κ $ -пространство Минковского, скалярное поле и проблема лоренц-инвариантности" Однако когда я посещаю этот URL-адрес в Firefox, я получаю $ κ $ -пространство Минковского, скалярное поле и проблема лоренц-инвариантности что на самом деле правильно. …

4
Где находится база данных Python «лучший ASCII для этого Unicode»?
У меня есть текст, в котором используется пунктуация Unicode, например левая двойная кавычка, правая одинарная кавычка для апострофа и т. Д., И мне он нужен в ASCII. Есть ли в Python база данных этих символов с очевидными заменами ASCII, так что я могу сделать лучше, чем превращать их все в …
85 python  unicode  ascii 

1
Кодировка Unicode для строковых литералов в C ++ 11
В ответ на связанный с этим вопрос я хотел бы задать вопрос о новых типах символьных и строковых литералов в C ++ 11. Кажется, что теперь у нас есть четыре вида символов и пять видов строковых литералов. Типы персонажей: char a = '\x30'; // character, no semantics wchar_t b = …

5
Длина MySQL VARCHAR и UTF-8
В MySQL, если я создаю новое VARCHAR(32)поле в таблице UTF-8, означает ли это, что я могу хранить 32 байта данных в этом поле или 32 символа (многобайтовые)?
84 mysql  unicode  utf-8  varchar 

21
Как преобразовать строку с кодировкой Unicode в строку букв
У меня есть строка с сбежавшим Unicode символами, \uXXXXи я хочу , чтобы преобразовать его в обычные буквы Unicode. Например: "\u0048\u0065\u006C\u006C\u006F World" должен стать "Hello World" Я знаю, что когда я печатаю первую строку, она уже отображается Hello world. Моя проблема в том, что я читаю имена файлов из файла, …
84 java  unicode  encoding 

3
Использование функций unicode () и encode () в Python
У меня проблема с кодированием переменной пути и ее вставкой в базу данных SQLite . Я попытался решить эту проблему с помощью функции кодирования ("utf-8"), которая не помогла. Затем я использовал функцию unicode (), которая дает мне тип unicode . print type(path) # <type 'unicode'> path = path.replace("one", "two") # …

6
Сколько символов можно сопоставить с помощью Unicode?
Я прошу подсчитать все возможные допустимые комбинации в Юникоде с объяснением. Я знаю, что char можно закодировать как 1,2,3 или 4 байта. Я также не понимаю, почему байты продолжения имеют ограничения, хотя начальный байт этого символа очищает, как долго он должен быть.
83 unicode  utf-8  utf 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.