Я хочу получить то, что находится между этими двумя тегами <tr> </tr>
- из HTML-документа. Теперь у меня нет особых требований к html, которые гарантировали бы наличие html-парсера. Мне просто нужно что-то, что соответствует <tr>
и </tr>
получает все промежуточное, и может быть несколько tr
s. Я попробовал awk, который работает, но по какой-то причине он дает мне дубликаты каждой извлеченной строки.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Как это сделать?
awk
работает, но выдает дубликаты, попробуйте передать выходные данные вашего awk, sort -u
чтобы они отличались
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Опубликуйте пример ввода и ожидаемый вывод, если он не работает.