Результаты поиска по запросу "lxml"

3 ответа

ошибка импорта из-за bs4 против BeautifulSoup

Я пытаюсь использоватьbeautifulsoup совместимыйlxml и это дает мне ошибку: from lxml.html.soupparser import fromstring Traceback (most recent call last): File "<stdin>", line 1, in <module> ...

2 ответа

Как использовать lxml, чтобы найти элемент по тексту?

Предположим, у нас есть следующий HTML: <html> <body> <a href="/1234.html">TEXT A</a> <a href="/3243.html">TEXT B</a> <a href="/7445.html">TEXT C</a> <body> </html>Как заставить его найти элемент «а», который содержит «ТЕКСТ А»? Пока у меня ...

5 ответов

Получить внутренний HTML-код элемента в lxml

Я пытаюсь получить содержимое HTML дочернего узла с помощью lxml и xpath в Python. Как показано в приведенном ниже коде, я хочу найти html-содержимое каждого из узлов продукта. Есть ли у него какие-либо методы, такие ...

ТОП публикаций

3 ответа

python - lxml: применение определенного порядка для атрибутов

У меня есть сценарий написания XML, который выводит XML для конкретного стороннего инструмента. Я использовал исходный XML в качестве шаблона, чтобы убедиться, что я собираю все правильные элементы, но окончательный XML не выглядит как ...

1 ответ

Есть ли способ восстановить iterparse на недопустимых значениях Char?

Я использую LXMLiterparse проанализировать несколько больших файлов XML (3-5Gig). Поскольку некоторые из этих файлов имеют недопустимые символыlxml.etree.XMLSyntaxError брошен При использовании lxml.etree.parse я могу предоставить парсер, ...

2 ответа

Доступные в Ruby гемы / инструменты для очистки веб-страниц [закрыто]

Я пытаюсь очистить веб-страницы сценарием Ruby, над которым я работаю. Цель проекта - показать, какие ETF и паевые инвестиционные фонды наиболее совместимы с философией инвестирования в стоимость. Вот некоторые примеры страниц, которые я хотел ...

1 ответ

Python XML удаляет некоторые элементы и их дочерние элементы, но сохраняет определенные элементы и их дочерние элементы

У меня очень большой XML-файл, и я пытаюсь создать новый XML-файл, в котором содержится небольшая часть содержимого этого файла большего размера. Я хочу указать атрибут (в моем случае, itemID) и присвоить ему несколько конкретных значений, а ...

2 ответа

HTML кодирование и разбор lxml

Я пытаюсь, наконец, решить некоторые проблемы с кодированием, которые возникают при попытке очистить HTML с помощью lxml. Вот три примера HTML-документов, с которыми я столкнулся: 1. <!DOCTYPE html> <html lang='en'> <head> <title>Unicode Chars: ...

3 ответа

Как отладить ошибку памяти Python?

Редактировать: Действительно ценю помощь в поиске ошибки - но так как это может оказаться трудно найти / воспроизвести, любая общая помощь отладки будет очень цениться тоже! Помоги мне помочь себе! знак равно Редактировать 2: сужение, ...

2 ответа

Синтаксический XML-файл получает UnicodeEncodeError (ElementTree) / ValueError (lxml)

Я отправляю запрос GETAPI CareerBuilder [http://api.careerbuilder.com/] : import requests url = "http://api.careerbuilder.com/v1/jobsearch" payload = {'DeveloperKey': 'MY_DEVLOPER_KEY', 'JobTitle': 'Biologist'} r = requests.get(url, ...