В настоящее время я использую Beautiful Soup для анализа HTML-файла и вызовов get_text(), но мне кажется, что у меня осталось много \ xa0 Unicode, представляющих пробелы. Есть ли эффективный способ удалить их все в Python 2.7 и заменить их пробелами? Я думаю, что более общий вопрос будет, есть ли способ удалить форматирование Unicode?
Я попытался использовать:, line = line.replace(u'\xa0',' ')как предложено в другом потоке, но это изменило \ xa0 на u, так что теперь у меня вместо этого везде "u". ):
РЕДАКТИРОВАТЬ: Кажется, что проблема решена str.replace(u'\xa0', ' ').encode('utf-8'), но просто .encode('utf-8')без, replace()кажется, заставляет его выплевывать даже более странные символы, например, \ xc2. Кто-нибудь может объяснить это?
u''s вместо ''s. :-)
u' 'замену, а не ' '. Является ли исходная строка юникодом?