Учитывая вариант использования Django, на этот вопрос есть два ответа. Вот его django.utils.html.escape
функция для справки:
def escape(html):
"""Returns the given HTML with ampersands, quotes and carets encoded."""
return mark_safe(force_unicode(html).replace('&', '&').replace('<', '&l
t;').replace('>', '>').replace('"', '"').replace("'", '''))
Чтобы изменить это, функция Cheetah, описанная в ответе Джейка, должна работать, но в ней отсутствует одинарная кавычка. Эта версия включает обновленный кортеж с обратным порядком замены, чтобы избежать симметричных проблем:
def html_decode(s):
"""
Returns the ASCII decoded version of the given HTML string. This does
NOT remove normal HTML tags like <p>.
"""
htmlCodes = (
("'", '''),
('"', '"'),
('>', '>'),
('<', '<'),
('&', '&')
)
for code in htmlCodes:
s = s.replace(code[1], code[0])
return s
unescaped = html_decode(my_string)
Однако это не общее решение; он подходит только для строк, закодированных с помощью django.utils.html.escape
. В более общем плане рекомендуется придерживаться стандартной библиотеки:
# Python 2.x:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
unescaped = html_parser.unescape(my_string)
# Python 3.x:
import html.parser
html_parser = html.parser.HTMLParser()
unescaped = html_parser.unescape(my_string)
# >= Python 3.5:
from html import unescape
unescaped = unescape(my_string)
В качестве предложения: может иметь смысл хранить HTML без экранирования в вашей базе данных. Если возможно, стоит подумать о том, чтобы получить обратно неэкранированные результаты из BeautifulSoup, и вообще избежать этого процесса.
В Django экранирование происходит только во время отрисовки шаблона; поэтому, чтобы предотвратить побег, вы просто скажете движку шаблонов не экранировать вашу строку. Для этого используйте в своем шаблоне одну из следующих опций:
{{ context_var|safe }}
{% autoescape off %}
{{ context_var }}
{% endautoescape %}