Получить все ссылки сайта

Есть ли способ / инструмент, чтобы получить все ссылки на сайте? Просто ссылки, не смотря на создание локальной копии / загрузки сайта. Пример - ссылки на все вопросы, размещенные на Superuser. Платформа Windows 7, Ubuntu 14.04

website extract links

— Renuka
источник

iwebtool.com/link_extractor - похожие вещи?

— hagubear

Я попробовал это. Он дает только ссылки на одной странице. Не весь сайт.

— Renuka

Прочитать о этот тогда :) @Renuka

— hagubear

возможный дубликат Как я могу скачать весь сайт?

— Ƭᴇcʜιᴇ007

Я понимаю, что вы сказали, что хотите «только ссылки», а не весь сайт (т. Е. Тот, который я пометил как возможный обман), но ответ № 1 (HTTrack) для дубликата имеет возможность делать то, что вы просите, предположил бы, что по крайней мере одно из других предложений сделало бы это также. Если вы попробовали их, сообщите нам, почему они не работают для вас в вашем случае.

— Ƭᴇcʜιᴇ007

Извините, что заставил вас ждать. Я загрузил свою программу Вот.

Программа все еще находится в очень-очень ранней фазе, поэтому большинство функций не работают, но, тем не менее, она захватывает все ссылки на другие страницы на сайте.

Для запуска требуется Java, и вы сможете дважды щелкнуть файл, и пользовательский интерфейс должен загрузиться. Введите в SearchW поле (в графическом интерфейсе) адрес веб-сайта, т.е. http://google.com , http://bbc.co.uk

Затем вы можете скопировать и вставить все ссылки по мере их печати (мне все еще нужно реализовать функцию экспорта, но вы сможете скопировать ссылки на данный момент)

Дайте мне знать, если у вас есть какие-либо проблемы! И если вам это нравится, я (когда он будет в приличном состоянии) опубликую ссылку на мой репозиторий, где вы сможете скачать более новые версии.

— benscabbia
источник

Привет . Я попробовал это сначала на filehippo.com. это дало мне этот вывод, который выглядит хорошо. Сайт не такой большой. pastebin.com/CfSe4RgD , Тогда я попробовал это на большом сайте. 9gag.com. Это дало вывод всего 61 строки pastebin.com/VE30u8DE , Filehippo было 208 строк. это невозможно . 9gag имеет миллионы постов.

— Renuka

Кстати, спасибо. Продолжайте обновлять, если можете. Я буду продолжать проверять это для вас. :)

— Renuka

@ Ренука, прости, я должен был упомянуть. Парсер сканирует только один уровень, то есть захватывает все ссылки с домашней страницы, а затем проверяет каждую страницу на наличие электронного письма (я знаю, что оно вас не интересует). Но если вы хотите, чтобы он буквально захватывал каждую ссылку на сайте, мне придется немного изменить код. Единственная проблема заключается в том, что если есть ссылка (скажем, на домашней странице), указывающая на другой веб-сайт, она также начнет захватывать ссылки с других веб-сайтов (она не знает, является ли ссылка с текущего веб-сайта или другого веб-сайта). Но я посмотрю, что я могу сделать

— benscabbia

@ Ренука, добро пожаловать :). Я не смогу поработать над этим несколько дней, но теперь у меня есть кто-то, кто ждет обновленных версий, и я сделаю все возможное, чтобы продолжить его разработку как можно скорее!

— benscabbia

@Renuka Я надеялся, что он будет работать напрямую (на самом деле они не были инструкциями, но я переформулировал это сейчас). Может быть очень сложно заставить его работать через консоль (вероятно, потребуется настройка системных переменных и т. Д.)

— benscabbia