Как использовать Xpath в Python?

224

Какие библиотеки поддерживают Xpath? Есть ли полная реализация? Как используется библиотека? Где его сайт?

— SMCI
источник

4

У меня есть это подлое подозрение, что ответы на этот вопрос сейчас немного устарели.

— Уоррен П

4

Ответ @ gringo-suave выглядит как хорошее обновление. stackoverflow.com/a/13504511/1450294

— Майкл Шепер

Scrapy предлагает XPath селекторы .

— cs95

Как говорит @WarrenP, большинство ответов здесь - крайне устаревший Python-2.x, действительно устаревший. Может быть, этот вопрос должен быть помечен python-2.x

— smci

129

libxml2 имеет ряд преимуществ:

Соответствие спецификации
Активное развитие и участие сообщества
Скорость. Это действительно оболочка Python для реализации на Си.
Ubiquity. Библиотека libxml2 широко распространена и поэтому хорошо протестирована.

Недостатки включают в себя:

Соответствие спецификации . Это строгое Такие вещи, как обработка пространства имен по умолчанию, проще в других библиотеках.
Использование нативного кода. Это может быть проблемой в зависимости от того, как ваше приложение распределено / развернуто. Доступны RPM, которые облегчают эту боль.
Ручная обработка ресурсов. Обратите внимание на приведенный ниже пример вызовов freeDoc () и xpathFreeContext (). Это не очень Pythonic.

Если вы делаете простой выбор пути, придерживайтесь ElementTree (который включен в Python 2.5). Если вам нужно полное соответствие спецификациям или грубая скорость и вы можете справиться с распространением нативного кода, используйте libxml2.

Пример использования XPath libxml2

import libxml2

doc = libxml2.parseFile("tst.xml")
ctxt = doc.xpathNewContext()
res = ctxt.xpathEval("//*")
if len(res) != 2:
    print "xpath query: wrong node set size"
    sys.exit(1)
if res[0].name != "doc" or res[1].name != "foo":
    print "xpath query: wrong node set value"
    sys.exit(1)
doc.freeDoc()
ctxt.xpathFreeContext()

Пример использования ElementTree XPath

from elementtree.ElementTree import ElementTree
mydoc = ElementTree(file='tst.xml')
for e in mydoc.findall('/foo/bar'):
    print e.get('title').text

— Райан Кокс
источник

8

используя python 2.7.10 на osx, мне пришлось импортировать ElementTree какfrom xml.etree.ElementTree import ElementTree

— Бен Страница

потому что это оболочка C, вы можете столкнуться с трудностями при ее развертывании в AWS Lambda, если вы не скомпилируете экземпляр EC2 или образ Docker из AWS Linux

— CpILL

85

Пакет lxml поддерживает xpath. Кажется, это работает довольно хорошо, хотя у меня были некоторые проблемы с осью self ::. Есть также Амара , но я не использовал это лично.

— Джеймс Сулак
источник

1

Амара довольно милая, и не всегда нужен xpath.

— gatoatigrado

Пожалуйста, добавьте некоторые основные сведения о том, как использовать XPath с lxml.

— jpmc26

56

Похоже, реклама LXML здесь. ;) ElementTree включен в библиотеку std. Под 2.6 и ниже его xpath довольно слаб, но в 2.7+ значительно улучшен :

import xml.etree.ElementTree as ET
root = ET.parse(filename)
result = ''

for elem in root.findall('.//child/grandchild'):
    # How to make decisions based on attributes even in 2.6:
    if elem.attrib.get('name') == 'foo':
        result = elem.text
        break

— Гринго Суаве
источник

39

Используйте LXML. LXML использует всю мощь libxml2 и libxslt, но заключает их в более «Pythonic» привязки, чем в привязки Python, которые являются родными для этих библиотек. Таким образом, он получает полную реализацию XPath 1.0. Native ElemenTree поддерживает ограниченное подмножество XPath, хотя оно может быть достаточно для ваших нужд.

— user210794
источник

29

Другой вариант - py-dom-xpath , он работает без проблем с minidom и является чистым Python, поэтому работает на appengine.

import xpath
xpath.find('//item', doc)

— Сэм
источник

2

Проще, чем lxml и libxml2, если вы уже работаете с minidom. Работает красиво и более "Pythonic". Функция contextin findпозволяет вам использовать другой результат xpath в качестве нового контекста поиска.

— Бен

3

Я тоже использовал py-dom-xpath, когда пишу плагин, потому что это чистый python. Но я не думаю, что это больше поддерживается, и помните об этой ошибке («Не удается получить доступ к элементу с именем« text »»): code.google.com/p/py-dom-xpath/issues/detail?id = 8

— Джон Кумбс

В 2010 году py-dom-xpath, кажется, законсервировали несколько лет назад , пожалуйста, как минимум, отредактируйте это в своем ответе.

— SMCI

14

Ты можешь использовать:

PyXML :

from xml.dom.ext.reader import Sax2
from xml import xpath
doc = Sax2.FromXmlFile('foo.xml').documentElement
for url in xpath.Evaluate('//@Url', doc):
  print url.value

libxml2 :

import libxml2
doc = libxml2.parseFile('foo.xml')
for url in doc.xpathEval('//@Url'):
  print url.content

— 0xAX
источник

когда я попробовал код PyXML, я получил ImportError: No module named extотfrom xml.dom.ext.reader import Sax2

— Aminah Nuraini

9

Последняя версия elementtree очень хорошо поддерживает XPath. Не будучи экспертом по XPath, я не могу точно сказать, является ли реализация полной, но она удовлетворила большинство моих потребностей при работе в Python. Я также использую lxml и PyXML и нахожу этри хорошим, потому что это стандартный модуль.

ПРИМЕЧАНИЕ: с тех пор я нашел lxml и для меня это определенно лучшая библиотека XML для Python. Он также хорошо работает с XPath (хотя, возможно, не полная реализация).

— JKP
источник

7

Поддержка ElementTree XPath в настоящее время минимальна в лучшем случае. В функциональности есть огромные дыры, такие как отсутствие селекторов атрибутов, отсутствие осей, отличных от заданных по умолчанию, отсутствие индексации дочерних элементов и т. Д. В версии 1.3 (в альфа-версии) добавлены некоторые из этих функций, но это все еще довольно частичная реализация.

— Джеймс Брэди

8

Вы можете использовать простой soupparserизlxml

Пример:

from lxml.html.soupparser import fromstring

tree = fromstring("<a>Find me!</a>")
print tree.xpath("//a/text()")

— Амина Нураини
источник

Какая разница с использованием soupparser?

— Падрайк Каннингем

Это просто альтернатива

— Амина Нураини

7

Если вы хотите использовать возможности XPATH в сочетании с возможностью использовать CSS в любой момент, вы можете использовать parsel:

>>> from parsel import Selector
>>> sel = Selector(text=u"""<html>
        <body>
            <h1>Hello, Parsel!</h1>
            <ul>
                <li><a href="http://example.com">Link 1</a></li>
                <li><a href="http://scrapy.org">Link 2</a></li>
            </ul
        </body>
        </html>""")
>>>
>>> sel.css('h1::text').extract_first()
'Hello, Parsel!'
>>> sel.xpath('//h1/text()').extract_first()
'Hello, Parsel!'

— eLRuLL
источник

как должен выглядеть мой Xpath, если я хочу получить "Link 1" и "Link 2"?

— weefwefwqg3

1

для получения текста это должно быть что-то вроде//li/a/text()

— eLRuLL

4

Другая библиотека - 4Suite: http://sourceforge.net/projects/foursuite/

Я не знаю, насколько это соответствует спецификации. Но это сработало очень хорошо для моего использования. Это выглядит заброшенным.

— codeape
источник

3

PyXML работает хорошо.

Вы не сказали, какую платформу вы используете, однако, если вы используете Ubuntu, вы можете получить ее sudo apt-get install python-xml. Я уверен, что другие дистрибутивы Linux также есть.

Если вы работаете на Mac, xpath уже установлен, но не доступен сразу. Вы можете установить PY_USE_XMLPLUSв своей среде или сделать это Python, прежде чем импортировать xml.xpath:

if sys.platform.startswith('darwin'):
    os.environ['PY_USE_XMLPLUS'] = '1'

В худшем случае вам, возможно, придется создать его самостоятельно. Этот пакет больше не поддерживается, но все еще прекрасно работает и работает с современными 2.x Pythons. Основные документы здесь .

— Дэвид Джойнер
источник

0

Если вам понадобится html :

import lxml.html as html
root  = html.fromstring(string)
root.xpath('//meta')

— Томас Г.
источник