Основываясь на полученных мной комментариях, я рассмотрел это немного дальше. Кажется, что в настоящее время лучше всего отказаться от использования сущностей HTML и вместо этого использовать фактический символ UTF-8 . Перечислены следующие причины:
- Кодировки UTF-8 легче читать и редактировать тем, кто понимает, что означает символ, и знает, как его набирать.
- Кодировки UTF-8 так же непонятны, как кодировки сущностей HTML для тех, кто их не понимает, но они имеют преимущество отрисовки в виде специальных символов, а не трудных для понимания десятичных или шестнадцатеричных кодировок.
Если кодировка вашей страницы правильно настроена на UTF-8, вы должны использовать фактический символ вместо объекта HTML. Я прочитал несколько документов по этой теме, но наиболее полезными были:
Из статьи UTF-8: The Secret of Character Encoding :
Википедия - отличный пример приложения, которое изначально использовало ISO-8859-1, но перешло на UTF-8, когда оно стало слишком громоздким для поддержки иностранных языков. Теперь боты будут фактически просматривать статьи и преобразовывать сущности персонажей в соответствующие им реальные персонажи для удобства пользователя и возможности поиска .
В этой статье также приводится хороший пример китайской кодировки. Вот сокращенный пример ради лени:
UTF-8:
這兩個字是甚麼意思
HTML-объекты :
這兩個字是甚麼意思
Кодировки объектов UTF-8 и HTML для меня бессмысленны, но, по крайней мере, кодировка UTF-8 распознается как иностранный язык , и она будет правильно отображаться в поле редактирования. В статье говорится следующее о версии с кодировкой объектов HTML:
Крайне неудобно для тех из нас, кто действительно знает, что такое сущности персонажей, совершенно непонятно для бедных пользователей, которые не знают! Даже несколько более удобные, «понятные» символьные сущности, такие как & theta; оставит пользователей, которые не заинтересованы в изучении HTML, ломать голову. С другой стороны, если они увидят θ в поле редактирования, они будут знать, что это специальный символ, и будут относиться к нему соответственно, даже если они не знают, как написать этот символ сами.
Как отмечали другие, вам все равно придется использовать объекты HTML для зарезервированных символов XML (амперсанд, меньше, больше).