Я извлекаю URL-адреса с веб-сайта, используя cURL, как показано ниже.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Мой новый файл .txt, как показано ниже.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Однако мне нужно извлечь только приведенную ниже информацию.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Я пытаюсь игнорировать те, <a href
которые имеют информацию в них и чей заголовок заканчивается NOTNEEDED .
Как я могу изменить свое утверждение grep?
Является ли вывод, который вы здесь показываете, правильным? Текст, описывающий это, не имеет смысла вместе с этим примером.
—
SLM
Вы не ищете
—
Тердон
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?
@terdon, именно это я и искал. Я могу принять это как ответ, если вы отправите это.
—
Рамеш,
Рамеш, это в основном ответ @ slm. Я только что отредактировал это, чтобы вы могли принять это.
—
Тердон
о да, я не понимал, что труба была такой мощной. Я принял это как ответ. Благодарность!
—
Рамеш,