Сценарии: что проще всего извлечь значение в теге файла XML?


14

Я хочу прочитать pom.xml («Объектная модель проекта» Maven) и извлечь информацию о версии. Вот пример:

<?xml version="1.0" encoding="UTF-8"?><project 
xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <modelVersion>4.0.0</modelVersion>
    <groupId>com.mycompany</groupId>
    <artifactId>project-parent</artifactId>
    <name>project-parent</name>
    <version>1.0.74-SNAPSHOT</version>
    <dependencies>
        <dependency>
        <groupId>com.sybase.jconnect</groupId>
        <artifactId>jconnect</artifactId>
        <version>6.05-26023</version>
    </dependency>
    <dependency>
        <groupId>joda-time</groupId>
        <artifactId>joda-time</artifactId>
        <version>1.5.2</version>
    </dependency>
    <dependency>
        <groupId>com.sun.jdmk</groupId>
        <artifactId>jmxtools</artifactId>
        <version>1.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.easymock</groupId>
        <artifactId>easymock</artifactId>
        <version>2.4</version>
    </dependency>       
</dependencies>
</project>

Как я могу извлечь версию '1.0.74-SNAPSHOT' сверху?

Хотелось бы сделать это, используя простой сценарий bash sed или awk. В противном случае простой питон является предпочтительным.

РЕДАКТИРОВАТЬ

  1. скованность

    Окно linux находится в корпоративной среде, поэтому я могу использовать только те инструменты, которые уже установлены (не то, чтобы я не мог запросить такие утилиты, как xml2, но мне пришлось пройти через много бюрократизма). Некоторые из решений очень хороши (уже изучите несколько новых трюков), но они могут быть неприменимы из-за ограниченной среды

  2. обновленный список XML

    Я добавил тег зависимостей в исходный список. Это покажет, что какое-то хакерское решение может не сработать в этом случае.

  3. Distro

    Я использую дистрибутив RHEL4


Достаточно ли этого stackoverflow.com/questions/29004/… ?
bbaja42

На самом деле, нет. В XML есть много тегов версии (например, под тегом зависимостей). Я хочу только '/ project / version'
Энтони Конг

Какие инструменты и библиотеки, связанные с XML, доступны? Все ли в порядке с решениями на основе jvm?
Ви.

Пока я могу сказать, что XML-модуля xml2, xmlgrep и perl нет. Большинство утилит командной строки Unix присутствуют. Дистрибутив Redhat EL 4.
Энтони Конг

(Я не мог добавить комментарий, поэтому я должен ответить как ответ, немного
перебить

Ответы:


17

xml2 может конвертировать xml в / из линейно-ориентированного формата:

xml2 < pom.xml  | grep /project/version= | sed 's/.*=//'

6

Другой способ: xmlgrep и XPath:

xmlgrep --text_only '/project/version' pom.xml

Недостаток: медленный


команда обновлена ​​доxml_grep
GAD3R

6

С помощью python

$ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.apache.org/POM/4.0.0}version")'
1.0.74-SNAPSHOT

С помощью xmlstarlet

$ xml sel -N x="http://maven.apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml
1.0.74-SNAPSHOT

С помощью xmllint

$ echo -e 'setns x=http://maven.apache.org/POM/4.0.0\ncat /x:project/x:version/text()' | xmllint --shell pom.xml | grep -v /
1.0.74-SNAPSHOT

cat (//x:version)[1]/text()при использовании xmllintтоже работает!
Кев

5

Clojure способ. Требуется только JVM со специальным файлом JAR:

java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))"

Скала путь:

java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i  match { case <version>{children @ _*}</version> => true; case _ => false;  }))  yield i })(0) match { case <version>{Text(x)}</version> => x })'

Отличный способ:

java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())'

Это круто! Отличная идея!
Энтони Конг

4

Вот альтернатива в Perl

$ perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."\n"'
1.0.74-SNAPSHOT

Он работает с пересмотренным / расширенным примером в вопросах, которые имеют несколько элементов «версии» на разных глубинах.


Медленно (хотя и быстрее, чем xmlgrep)
Vi.

3

Hacky путь:

perl -e '$_ = join "", <>; m!<project[^>]*>.*\n(?:    |\t)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1\n"' pom.xml

Полагается на правильное отступание требуемого <version>


Спасибо за предложение, но, к сожалению, оно не вернет то, что я хочу. Пожалуйста, смотрите обновленную модель пом.
Энтони Конг

Возвращает "1.0.74-SNAPSHOT". Обратите внимание, что я изменил сценарий после прочтения о нескольких <version>вещах.
Ви.

Примечание: это решение предоставляется «просто для удовольствия» и не предназначено для использования в реальном продукте. Лучше использовать xml2 / xmlgrep / XML :: Простое решение.
Ви.

Благодарность! хотя это «просто для удовольствия», но это, пожалуй, самое подходящее решение на сегодняшний день, потому что оно имеет минимальное количество зависимостей: требуется только perl ;-)
Энтони Конг

Что делать с Java? Использование файлов pom подразумевает наличие установленной JVM.
Ви.

3

Разработать очень неуклюжее решение с одним вкладышем

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>\(.*\)<.*/\1/g"

Sed в конце очень уродлив, но я не смог распечатать текст узла с одним только mindom.

Обновление от _Vi :

Менее хакерская версия Python:

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()"

Обновление от меня

Другая версия:

    python -c "from  xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']"

2

XSLT способ:

<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:output method="text"/>

        <xsl:template match="/">
                <xsl:for-each select="*[local-name()='project']">
                    <xsl:for-each select="*[local-name()='version']">
                        <xsl:value-of select="text()"/>
                    </xsl:for-each>
                </xsl:for-each>
        </xsl:template>
</xsl:stylesheet>
xalan -xsl x.xsl -in pom.xml

Если xsltproc установлен в вашей системе и, вероятно, он такой же, как libxslt в RHEL4, вы можете использовать его и приведенную выше таблицу стилей для вывода тега, то есть xsltproc x.xsl prom.xsl.
fpmurphy

2

если «в xml много тегов версии», то лучше забыть о том, чтобы делать это с «простыми инструментами» и регулярными выражениями, что не сработает.

попробуйте этот питон (без зависимостей):

from xml.dom.minidom import parse

dom = parse('pom.xml')
project = dom.getElementsByTagName('project')[0]
for node in project.childNodes:
    if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version':
        print node.firstChild.nodeValue

Что именно делает этот скрипт?
Саймон Шихан

он загружает XML как структуру DOM с использованием минимальной реализации Python: docs.python.org/library/xml.dom.minidom.html идея состоит в том, чтобы получить уникальный тег <project> и затем выполнить итерацию по его дочерним узлам (прямой только для детей), чтобы найти тег <version>, который мы ищем, а не другие теги с тем же именем в других местах.
Samus_

1

Вот однострочник, использующий sed:

sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml

1
Полагается на отсутствие параметров в элементах, и что дополнительные <version>s могут быть только внутри зависимостей.
Ви.

1

awk прекрасно работает без использования каких-либо дополнительных инструментов.
cat pod.xml

<project>
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.networks.app</groupId>
  <artifactId>operation-platform</artifactId>
  <version>1.0.0</version>
  <packaging>tar.xz</packaging>
  <description>POM was created by Sonatype Nexus</description>
</project>

простой и понятный способ получить значение <packaging>тега:

cat pod.xml | awk -F'[<>]' '/packaging/{print $3}'

1
Кажется, это работает, но будьте осторожны: он устанавливает разделитель полей (FS) на набор символов <и>; затем он находит все строки со словом «упаковка» и дает вам третье поле.
SMerrill8

0
Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE )

Вот, попробуйте это:

$TagElmnt - TagName
$FILE - xml file to parse

0

Я знаю, что ваш вопрос говорит о Linux, но если вам нужно сделать это в Windows без каких-либо сторонних инструментов, например, чтобы вы могли поместить его в пакетный файл, Powershell может извлечь любой узел из файла pom.xml, например, так :

powershell -Command "& {select-xml //pom:project/pom:properties/pom:mypluginversion -path pom.xml -Namespace  @{pom='http://maven.apache.org/POM/4.0.0'} | foreach {$_.Node.Innerxml}}" > myPluginVersion.txt

Powershell теперь с открытым исходным кодом и работает на Linux и других платформах. Мы используем его для сборки, предпочитая bash, cygwin и ming64.
Charlweed

0
sed -n "/<name>project-parent/{n;s/.*>\(.*\)<.*/\1/p;q}" pom.xml

Эта -nопция позволяет избежать печати несовпадающих строк; первый /.../метод match ( ) находится перед строкой, в которой находится искомый текст; nкоманда переходит к следующей строке, где sэкстракты соответствующей информации через в группу захвата ( \(...\)), и (обратную ссылка\1 ). pраспечатывает, qвыходит.


2
Можете ли вы расширить свой ответ, чтобы объяснить это? Благодарю.
fixer1234
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.