Для простых случаев загрузки содержимого страницы используйте curl или wget . Оба являются инструментами командной строки, предназначенными для загрузки файлов по HTTP, и имеют много опций. В вашем случае вам, вероятно, придется сделать эти инструменты больше похожими на браузер; Ответ Lutzky в и ответ penguin359 игровых упомянуть некоторые локон и Wget варианты , которые являются полезными в этом отношении.
Иногда, когда вам необходимо войти в систему , гораздо проще сначала войти в систему вручную в веб-браузере, а затем экспортировать куки-файлы веб-браузера ( могут помочь такие расширения, как allcookies или Export Cookies для Firefox).
Если вам нужно проанализировать содержимое некоторых страниц или бланков , вам могут потребоваться более интересные инструменты, чем curl и wget. Некоторые хорошие инструменты есть Perl с LWP
(libwww) и HTML::TreeBuilder
(HTML-Tree) или Python со стандартными библиотеками (особенно httplib
иhtmllib
).
Для более сложных взаимодействий с сайтом, ссылка на Perl - WWW :: Mechanize . Эта библиотека Perl определяет высокоуровневые функции для взаимодействия с веб-сайтом, как это делает веб-браузер, включая POSTing, формы, куки, но не Javascript. Если Perl не ваша чашка чая, эта библиотека имеет имитации с аналогичными возможностями в других языках, таких как Python mechanize и Ruby Mechanize .
Наконец, когда вам нужен Javascript , обычный подход заключается в использовании веб-браузера, который управляется платформой автоматизации браузера. Селен и Ватир - популярный выбор; см. также Существуют ли какие-либо хорошие инструменты помимо SeleniumRC, которые могут извлекать веб-страницы, включая контент, написанный после JavaScript?