Красивая супружеская структура с бирками br
я пытаюсь разобрать HTML-документ с помощью библиотеки Python BeautifulSoup, но структура искажается<br>
теги. Позвольте мне привести вам пример.
Введите HTML:
some text <br>
<span> some more text </span> <br>
<span> and more text </span>
HTML, который интерпретирует BeautifulSoup:
some text
<br>
<span> some more text </span>
<br>
<span> and more text </span>
<br>
<br>
В источнике пролеты можно считать родными братьями. После синтаксического анализа (с использованием парсера по умолчанию) диапазоны внезапно перестают быть родными, поскольку теги br стали частью структуры.
Решение, которое я могу придумать, чтобы решить эту проблему, состоит в том, чтобы лишить<br>
теги, прежде чем заливать HTML в Beautifulsoup, но это неЭто выглядит очень элегантно, так как требует от меня изменения ввода. Какие'лучший способ решить это?