В настоящее время я использую Beautiful Soup для анализа HTML-файла и вызовов get_text()
, но мне кажется, что у меня осталось много \ xa0 Unicode, представляющих пробелы. Есть ли эффективный способ удалить их все в Python 2.7 и заменить их пробелами? Я думаю, что более общий вопрос будет, есть ли способ удалить форматирование Unicode?
Я попытался использовать:, line = line.replace(u'\xa0',' ')
как предложено в другом потоке, но это изменило \ xa0 на u, так что теперь у меня вместо этого везде "u". ):
РЕДАКТИРОВАТЬ: Кажется, что проблема решена str.replace(u'\xa0', ' ').encode('utf-8')
, но просто .encode('utf-8')
без, replace()
кажется, заставляет его выплевывать даже более странные символы, например, \ xc2. Кто-нибудь может объяснить это?
u''
s вместо ''
s. :-)
u' '
замену, а не ' '
. Является ли исходная строка юникодом?