Как извлечь все внешние ссылки веб-страницы и сохранить их в файл?


11

Как извлечь все внешние ссылки веб-страницы и сохранить их в файл?

Если у вас есть какие-либо инструменты командной строки, это было бы здорово.

Ответы:


18

Вам понадобятся 2 инструмента, lynx и awk , попробуйте это:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Если вам нужна нумерация строк, используйте команду nl , попробуйте это:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Я не думаю, что это будет работать для относительных URL-адресов
Шридхар Сарнобат

8

Вот улучшение ответа Лелтона: вам вообще не нужен awk, потому что у lynx есть несколько полезных опций.

lynx -listonly -nonumbers -dump http://www.google.com.br

если ты хочешь цифры

lynx -listonly -dump http://www.google.com.br

0
  1. Используйте Beautiful Soup, чтобы получить нужные веб-страницы.
  2. Используйте awk, чтобы найти все URL, которые не указывают на ваш домен

Я бы порекомендовал Beautiful Soup по методам очистки экрана.


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.