Извлечение текста из HTML Java
Я работаю над программой, которая загружает HTML-страницы, а затем выбирает некоторую информацию и записывает ее в другой файл.
Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код выглядит следующим образом;
FileReader fileReader = new FileReader(file); BufferedReader buffRd = new BufferedReader(fileReader); BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt)); String s; while ((s = br.readLine()) !=null) { if(s.contains("
")) { try { out.write(s); } catch (IOException e) { } } }
я пытался добавить еще один цикл, который будет указывать программе продолжать запись в файл, пока строка не содержит
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Но это нет работа. Может кто-нибудь, пожалуйста, помогите.