Я просто использую wget по ночам. FWIW, вот параметры, которые я использую:
-N - включить отметку времени
-r - рекурсивный
-k - конвертировать ссылки
-nv - отключить подробное ведение журнала
-o - выходной журнал
-i - входной файл сайтов для сканирования
-м - зеркало
-w1 - подождать 1 секунду между запросами
--random-wait - использовать случайное время ожидания между запросами
-np - нет родителя, никогда не подниматься в родительский каталог
-p - загрузить все предварительные требования к страницам (таблицы стилей, сценарии и т. д.)
-X - каталоги для исключения
-R - имена файлов для отклонения
-H - диапазон хостов (ограничен -D)
-D - домены для сканирования (ограничено этими доменами)
Самой большой проблемой является то, что большинство страниц, возвращаемых Blogger, не содержат заголовка Last-updated HTTP в ответе, поэтому он повторно загружает неизмененные файлы и регистрирует следующее сообщение:
«Последний измененный заголовок отсутствует - временные метки отключены».
Если бы я мог придумать, как подавить такое поведение, я был бы счастлив, потому что именно это делает его медленным, и моя локальная резервная копия должна иметь дело с этими файлами каждую ночь, потому что думает, что они изменились (когда они этого не сделали).