Spider / сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV


1

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal / Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта.

Предпочтительно, чтобы результаты имели заголовок страницы, и в идеале я мог бы дать ему какой-то способ вернуть другие данные со страницы (например, селектор CSS).

Я бы предпочел, чтобы это было в OS X, но я тоже могу использовать приложения для Windows.

Я попробовал целостность , но ее вывод почти невозможно расшифровать, плюс он, кажется, не работает хорошо.


R, может справиться с этим. Но я не уверен, как это сделать для всего сайта. Вот пример синтаксического анализа одной страницы: stackoverflow.com/questions/3746256/…
Брэндон Бертельсен

Ответы:


0

Если вы не против написания скриптов на Perl ...

Этот модуль реализует настраиваемый механизм веб-обхода для робота или другого веб-агента. Получив начальную веб-страницу (URL), робот получит содержимое этой страницы и извлечет все ссылки на странице, добавив их в список URL-адресов для посещения.


Я ужасен с Perl, и я не могу понять, как установить модуль из CPAN = p
Тайлер Кленденин
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.