У меня есть пара сотен файлов HTML исходного кода. Мне нужно извлечь содержимое определенного <div>
элемента из каждого из этих файлов, поэтому я собираюсь написать скрипт для циклического прохождения каждого файла. Структура элемента выглядит следующим образом:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Может кто-нибудь предложить метод, с помощью которого я могу извлечь div the_div_id
и все дочерние элементы и контент из файла с помощью командной строки Linux?
hxselect
более требователен к формату ввода, чемpup
. Например, я получаюInput is not well-formed. (Maybe try normalize?)
с,hxselect
гдеpup
просто анализирую это.