Textextraktion aus HTML Java
Ich arbeite an einem Programm, das HTML-Seiten herunterlädt und dann einige der Informationen auswählt und in eine andere Datei schreibt.
Ich möchte die Informationen extrahieren, die sich zwischen den Absatz-Tags befinden, aber ich kann nur eine Zeile des Absatzes abrufen. Mein Code ist wie folgt;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
Ich habe versucht, eine weitere while-Schleife hinzuzufügen, die das Programm anweist, so lange in die Datei zu schreiben, bis die Zeile die Zeichen enthält</p>
tag, indem du sagst;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Das geht aber nicht. Könnte jemand bitte helfen.