Ответы:
Согласно информации о доступе робота к нашим страницам :
Доступ роботов к нашему сайту должен быть оставлен как последний ресурс, когда все остальное не удалось. Кроме того, помните, что веб-сайт Project Gutenberg защищен авторским правом.
Однако есть надежда :
Лучшие альтернативы
- Получить автономную версию веб-сайта Project Gutenberg.
- Получить все файлы книги Project Gutenberg.
- Получить данные каталога проекта Гутенберга.
А также:
[...] Вы можете получить все наши электронные книги в заархивированных файлах, указав своего робота на http://www.gutenberg.org/robot/harvest
[...] Распаковка zip-файлов даст еще 70000 файлов.
Это пример того, как получить все файлы, используя
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Если вам нужны только некоторые типы файлов, скажите:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Если вам нужны только файлы на данном языке, скажите:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Итак, я бы успокоился:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Но я думаю, вам лучше разрешить прерывание и перезапуск: try --level 9999 --no-clobber
, который пропустит файлы, которые у вас уже есть (при условии, что вы все еще находитесь в той же папке на диске).
--input-file
В руководстве .
-c
вариант, но все же. Я дал offset=xxx
URL для зеркального отображения, но он все еще загружается с первой страницы.
Вы можете загрузить всю коллекцию английских книг и других языков Гутенберга в одном файле ZIM, который сильно сжат и может затем открываться с помощью Kiwix как на настольном компьютере, так и на Android. Книги на английском языке 40 ГБ.
Хотя выбранный ответ правильный, он потенциально может вызвать две проблемы:
wget
команда не сможет выполнить рекурсивные проверки при загрузке файлов с внешнего зеркала.Приведенное ниже решение устраняет эти проблемы:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Возможно, вы захотите изменить строки referer и user-agent, чтобы обеспечить немного случайности.
У ftp://mirrors.pglaf.org/mirrors/gutenberg-iso есть несколько хороших вариантов.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso - это файл объемом 8 ГБ, которого должно быть достаточно для ваших нужд.
Здесь больше информации:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , он предоставляет все варианты загрузки архива, включая FTP и BitTorrent.
Другой вариант - отличный инструмент на http://pgiso.pglaf.org/ .
Почему бы не использовать все свои чрезмерно сложные и показанные выше навыки и знания в области программирования, чтобы создать простую кнопку, которая связывает все эти действия с надписью «Загрузить все текущие книги» - с вкладкой опций языка, когда вы нажимаете на нее.
Я уверен, что большинство пользователей, которые приходят на сайт, являются коллекционерами электронных книг, и ручная загрузка определенных книг по интересующим их темам вполне подходит для 1 или 2 книг. Но сделать большую коллекцию вручную - непросто. Тем не менее, если они нуждаются в этом для исследований или просто хотели бы иметь огромную цифровую библиотеку книг на своем собственном ПК. Большинство людей отключаются и уходят с сайта, когда понимают, что для этого им нужен мастер компьютера. Так что кнопка «Скачать все текущие книги» принесет пользу сайту и проекту, а также пользователям еще больше посетителей сайта. Так что все счастливы.