Я пытаюсь отразить блог, например www.example.com
, с wget
.
Я использую wget со следующими параметрами (переменные оболочки подставляются правильно):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Блог содержит изображения, которые находятся на других доменах.
Несмотря на то, что я указал -p
опцию (загрузка ресурсов связанных страниц), эти изображения не загружаются, если я не укажу каждый домен явно в -D
опции.
Если я опущу эту -D
опцию, wget будет переходить по каждой внешней ссылке www.example.com
и загружать весь интернет.
Можно ли wget
просто перейти по каждой ссылке www.example.com
и загрузить необходимые ресурсы для каждой страницы, независимо от того, находятся ли они в одном домене или нет, без необходимости явного указания каждого домена?
-D $domains
а также -H
. Без этого -H
он должен оставаться в вашем домене, но при этом получать ресурсы прямой страницы, даже если они находятся в другом домене.
wget -N -E -H -k -K -p
сначала и придумал скрипт для извлечения недостающих связанных изображений.