Я хочу сканировать ссылки по адресу www.website.com/XYZ и загружать только те ссылки, которые находятся по адресу www.website.com/ABC.
Я использую следующую команду wget для получения нужных мне файлов:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Это прекрасно работает, когда я использую wget 1.13.4. Но проблема в том, что я должен использовать эту команду на сервере с wget 1.11, и когда я использую ту же команду, она заканчивает тем, что загружает дополнительные домены, такие как:
www.website.de
www.website.it
...
Как я могу избежать этой проблемы? Я пытался с помощью
--exclude domains=www.website.de,www.website.it
однако он продолжал загружать эти домены.
Также обратите внимание, что я не могу использовать, --no-parent
поскольку нужные мне файлы находятся на верхнем уровне (я хочу файлы на сайте website.com/ABC, просматривая ссылки на сайте website.com/XYZ).
Есть намеки?
wget
не должен пересекать хосты по умолчанию, и вам нужна опция -H
/ --span-hosts
для пересечения хостов при выполнении рекурсивного wget. «www.website.com» - это хост, совершенно отличающийся от «www.website.de».
-H
всегда требовалось выполнять рекурсию вне исходного хоста. Помогает -D www.website.com
?