Вопросы с тегом «web-crawler»

5
Конвертировать веб-страницы в один файл для электронной книги
Я хочу скачать HTML (например: http://www.brpreiss.com/books/opus6/ ) и присоединить его к одному HTML или другому формату, который я могу использовать для чтения электронных книг. Сайты с бесплатными книгами не имеют стандартной подкачки страниц, они не являются блогами или форумами, поэтому не знаете, как выполнить автоматический обход и объединение.


2
Как сканировать, используя wget для загрузки ТОЛЬКО файлов HTML (игнорировать изображения, css, js)
По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т. Д.). Я хочу только файлы HTML. Поиски в Google совершенно бесполезны. Вот команда, которую я попробовал: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e …
14 wget  web-crawler 

4
Использование Wget для рекурсивного сканирования сайта и загрузки изображений
Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений? Я попытался использовать это для сканирования сайта и загрузки только изображений в формате JPEG: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Однако, несмотря на то, что page1.html содержит сотни ссылок на подстраницы, которые сами имеют прямые …

4
Насколько «законно» соскоб сайта с использованием cURL? [закрыто]
В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за …

4
Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?
Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не указаны ни на одной странице, поэтому мне нужно что-то (программа? Фреймворк?), Чтобы сканировать сайт и скачивать файлы, или, по крайней мере, получить список файлов. Я попробовал WinHTTrack, но не смог заставить его работать. DownThemAll for Firefox …

1
Поиск страниц на веб-странице, содержащей определенную ссылку
Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pdf. Но как мне найти страницу на fda.gov, которая на самом деле ссылается на этот .pdf? Таким образом, я могу видеть, в каких отношениях это было …

2
Является ли веб-сайт, который нигде не связан, полностью скрыт?
Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т. Д.). У меня вопрос: если я обслуживаю веб-сайт со своего собственного веб-сервера и не помещаю содержимое в корневой каталог на порт 80 (т.е. …

1
Spider / сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV
Я перехожу со старого сайта корзины покупок ASP на сайт Drupal / Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта. Предпочтительно, чтобы результаты имели заголовок страницы, и в …

1
Как сканировать свой собственный сайт, чтобы сохранить в кеш
Я использую Squid , программу для кеширования, для кеширования моего сайта. Однако для этого необходимо, чтобы к каждой странице обращались как минимум один раз, прежде чем Squid сможет ее кешировать. У меня вопрос: есть ли программа, которая будет быстро сканировать мой веб-сайт, получать доступ ко всем страницам один раз, чтобы …

5
Сканирующий сайт / паук, чтобы получить карту сайта [закрыто]
Мне нужно получить целую карту сайта в формате, подобном: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Мне нужно, чтобы он был основан на ссылках (без файла или dir brute-force), например: разобрать домашнюю страницу -> получить все ссылки -> изучить их -> получить ссылки, ... И мне также нужна возможность определить, является ли …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.