Красивая супружеская структура с бирками br
Я пытаюсь разобрать HTML-документ, используя библиотеку BeautifulSoup Python, но структура искажается<br>
теги. Позвольте мне привести вам пример.
Введите HTML:
<div>
some text <br>
<span> some more text </span> <br>
<span> and more text </span>
</div>
HTML, который интерпретирует BeautifulSoup:
<div>
some text
<br>
<span> some more text </span>
<br>
<span> and more text </span>
</br>
</br>
</div>
В источнике пролеты можно считать родными братьями. После синтаксического анализа (с использованием парсера по умолчанию) диапазоны внезапно перестают быть родными, поскольку теги br стали частью структуры.
Решение, которое я могу придумать, чтобы решить эту проблему, состоит в том, чтобы лишить<br>
в целом, перед заливкой html в Beautifulsoup, но это выглядит не очень элегантно, так как требует изменения ввода. Какой лучший способ решить это?