Я пишу краулер на Ruby (1.9), который потребляет много HTML с множества случайных сайтов.
При попытке извлечь ссылки я решил просто использовать .scan(/href="(.*?)"/i)вместо nokogiri / hpricot (значительное ускорение). Проблема в том, что теперь я получаю много " invalid byte sequence in UTF-8" ошибок.
Насколько я понял, в net/httpбиблиотеке нет каких-либо конкретных параметров кодирования, и все, что входит, в основном не помечено должным образом.
Как лучше всего работать с этими входящими данными? Я попытался .encodeустановить замену и неверные параметры, но пока безуспешно ...
'U*'отменяет действие 'C*'?