Если у вас не установлены эти другие инструменты, есть только wget, а на странице нет форматирования, кроме обычного текста и ссылок, например, исходного кода или списка файлов, вы можете удалить HTML-код с помощью sed следующим образом:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Это использует wget для вывода исходного кода страницы в STDOUT и sed для удаления любых пар <> и чего-либо между ними.
Затем вы можете перенаправить вывод команды sed в файл, который вы хотите создать, используя>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB. Вы можете обнаружить, что в файле есть лишние пробелы, которые вам не нужны (например, строки с отступом в несколько столбцов)
Возможно, проще всего использовать ваш текстовый редактор, чтобы привести файл в порядок (или исходный форматер, когда вы загружаете исходный код на Си).
Если вам нужно проделать одну и ту же простую вещь с каждой строкой файла, вы можете включить команду для этого в команду sed (в данном случае один пробел):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Это не сложно, но это зависит от структуры страницы. Если вы предоставите ссылку, возможно, кто-то поможет вам с точным кодом. В противном случаеsed
илиperl
ваши друзья.