Недавно я изучал Python и погружаюсь в создание веб-скребка. Ничего особенного; его единственная цель - получить данные с веб-сайта для ставок и поместить их в Excel.
Большинство проблем решаемы, и у меня есть хороший маленький беспорядок вокруг. Однако я столкнулся с огромным препятствием из-за одной проблемы. Если сайт загружает таблицу лошадей и перечисляет текущие цены на ставки, этой информации нет ни в одном исходном файле. Подсказка заключается в том, что эти данные иногда бывают живыми, причем цифры, очевидно, обновляются с какого-то удаленного сервера. В HTML на моем ПК просто есть дыра, где их серверы проталкивают все интересные данные, которые мне нужны.
Теперь мой опыт работы с динамическим веб-контентом невелик, поэтому у меня возникли проблемы с тем, как мне разобраться.
Я думаю, что Java или Javascript - это ключ, который часто появляется.
Скребок - это просто механизм сравнения шансов. У некоторых сайтов есть API, но мне это нужно для тех, кто этого не делает. Я использую библиотеку Scrapy с Python 2.7
Я извиняюсь, если этот вопрос слишком открытый. Короче говоря, мой вопрос: как можно использовать скрап для очистки этих динамических данных, чтобы я мог их использовать? Чтобы я мог в реальном времени проверить эти данные о коэффициентах ставок?
Firefox
расширения, такие как httpFox
или, liveHttpHeaders
и загрузите страницу, которая использует ajax-запрос. Scrapy не идентифицирует автоматически запросы ajax, вам нужно вручную найти соответствующий URL-адрес ajax, а затем выполнить запрос с ним.