Я пишу краулер на Ruby (1.9), который потребляет много HTML с множества случайных сайтов.
При попытке извлечь ссылки я решил просто использовать .scan(/href="(.*?)"/i)
вместо nokogiri / hpricot (значительное ускорение). Проблема в том, что теперь я получаю много " invalid byte sequence in UTF-8
" ошибок.
Насколько я понял, в net/http
библиотеке нет каких-либо конкретных параметров кодирования, и все, что входит, в основном не помечено должным образом.
Как лучше всего работать с этими входящими данными? Я попытался .encode
установить замену и неверные параметры, но пока безуспешно ...
'U*'
отменяет действие 'C*'
?