Как сохранить разрывы строк при использовании Jsoup.parse?
Это не дубликат. Был похожвопрос, но ни один из этих ответов не может иметь дело с настоящим HTML-файлом. Можно сохранить любой HTML, даже этот, и попытаться запустить любое из решений этого ответа ... ни одно из них не решает проблему полностью
Вопрос в том
У меня есть сохраненный.htm
файл на моем рабочем столе. Мне нужно получить чистый текст из него. Однако мне нужно сохранить разрывы строк, чтобы текст не был на одной или нескольких строках.
Я попробовал следующее и все методы изВот
FileInputStream in = new FileInputStream("C:\\...myfile.htm");
String htmlText = IOUtils.toString(in);
for (String line : htmlText.split("\n")) {
String stripped = Jsoup.parse(line).text();
System.out.println(stripped);
}
Это сохраняет только строки HTML-файла. Тем не менее, текст все еще запутался, потому что такие вещи, как</br>
, <p>
был удален. Как мне разобрать, чтобы текст сохранил все естественные разрывы строк.