Wyodrębnianie tekstu z HTML Java
Pracuję nad programem, który pobiera strony HTML, a następnie wybiera niektóre informacje i zapisuje je w innym pliku.
Chcę wyodrębnić informacje znajdujące się między znacznikami akapitu, ale mogę uzyskać tylko jedną linię akapitu. Mój kod jest następujący;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
Próbowałem dodać kolejną pętlę while, która powiedziałaby programowi, aby kontynuował pisanie do pliku, dopóki linia nie zawiera</p>
tag, mówiąc;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Ale to nie działa. Czy ktoś mógłby mi pomóc?