Вопросы с тегом «html-parsing»

Синтаксический анализ HTML - это процесс сериализации HTML-документа и создания представления, с которым вы можете работать программно, например, чтобы извлечь из него данные. Спецификация HTML определяет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.


30
Варианты соскоба HTML? [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать Beautiful Soup , пакет Python …

9
Разобрать строку HTML с помощью JS
Я искал решение, но ничего не имело значения, поэтому вот моя проблема: Я хочу проанализировать строку, которая содержит текст HTML. Я хочу сделать это в JavaScript. Я попробовал эту библиотеку, но кажется, что она анализирует HTML моей текущей страницы, а не строки. Потому что, когда я пробую приведенный ниже код, …

18
Использование регулярных выражений для разбора HTML: почему бы и нет?
Кажется, что у каждого вопроса в stackoverflow, когда спрашивающий использует регулярное выражение для получения некоторой информации из HTML, неизбежно будет «ответ», который говорит, что не следует использовать регулярное выражение для анализа HTML. Почему нет? Я знаю, что существуют «настоящие» парсеры HTML без кавычек, такие как Beautiful Soup , и я …

3
Какой HTML парсер самый лучший? [закрыто]
В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и, возможно, вновь открыть, обратитесь за …

7
Разбор HTML с использованием Python
Я ищу модуль HTML Parser для Python, который может помочь мне получить теги в виде списков / словарей / объектов Python. Если у меня есть документ формы: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> тогда он должен дать мне способ доступа к вложенным …


5
Как работает анализ HTML, если он не использует регулярное выражение?
Я каждый день вижу вопросы, в которых спрашивают, как разобрать или извлечь что-то из некоторой HTML-строки, и первым ответом / комментарием всегда будет «Не используйте RegEx для синтаксического анализа HTML, чтобы не почувствовать гнев!» (последняя часть иногда опускается). Меня это сбивает с толку, я всегда думал, что в целом лучший …

5
Как разобрать HTML-страницу с помощью Node.js
Мне нужно проанализировать (на стороне сервера) большое количество HTML-страниц. Мы все согласны с тем, что регулярное выражение здесь не подходит. Мне кажется, что javascript - это собственный способ синтаксического анализа HTML-страницы, но это предположение основывается на коде на стороне сервера, имеющем все возможности DOM, которые javascript имеет внутри браузера. Есть …

8
Как извлечь строку по шаблону с помощью grep, regex или perl
У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мне нужно извлечь что-нибудь в следующих кавычках name=, то есть content_analyzer, content_analyzer2и content_analyzer_items. Я делаю это в системе Linux, поэтому решение с использованием sed, …

8
Как нормализовать HTML в JavaScript или jQuery?
Теги могут иметь несколько атрибутов. Порядок, в котором атрибуты появляются в коде, не имеет значения. Например: <a href="#" title="#"> <a title="#" href="#"> Как я могу «нормализовать» HTML в Javascript, чтобы порядок атрибутов всегда был одинаковым? Мне все равно, какой порядок будет выбран, главное, чтобы он всегда был одинаковым. ОБНОВЛЕНИЕ : …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.