Мне нужно получить целую карту сайта в формате, подобном:
- http://example.org/
- http://example.org/product/
- http://example.org/service/
- http://example.org/about/
- http://example.org/product/viewproduct/
Мне нужно, чтобы он был основан на ссылках (без файла или dir brute-force), например:
разобрать домашнюю страницу -> получить все ссылки -> изучить их -> получить ссылки, ...
И мне также нужна возможность определить, является ли страница «шаблоном», чтобы не получить все «дочерние страницы». Например, если найдены следующие ссылки:
- http://example.org/product/viewproduct?id=1
- http://example.org/product/viewproduct?id=2
- http://example.org/product/viewproduct?id=3
Мне нужно получить только один раз http://example.org/product/viewproduct
Я посмотрел на HTTtracks, wget (с паутинкой), но пока что ничего убедительного.
Софт / инструмент должен быть загружаемым, и я предпочитаю, если он работает на Linux. Это может быть написано на любом языке.
Спасибо