У меня есть строка, которая выглядит так:
6Â 918Â 417Â 712
Четкий способ обрезать эту строку (как я понимаю в Python) - просто сказать, что строка находится в переменной с именем s
, мы получаем:
s.replace('Â ', '')
Это должно делать свое дело. Но, конечно, он жалуется, что не-ASCII-символ '\xc2'
в файле blabla.py не закодирован.
Я никогда не мог понять, как переключаться между разными кодировками.
Вот код, он действительно такой же, как и выше, но теперь он в контексте. Файл сохраняется в блокноте как UTF-8 и имеет следующий заголовок:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
Код:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
Не дальше s.replace
...
u