Wyodrębnianie tekstu z HTML Java

Question

Sep 06, 2009, 06:52 PM

java screen-scraping html-content-extraction text-extraction html

Wyodrębnianie tekstu z HTML Java

Pracuję nad programem, który pobiera strony HTML, a następnie wybiera niektóre informacje i zapisuje je w innym pliku.

Chcę wyodrębnić informacje znajdujące się między znacznikami akapitu, ale mogę uzyskać tylko jedną linię akapitu. Mój kod jest następujący;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}

Próbowałem dodać kolejną pętlę while, która powiedziałaby programowi, aby kontynuował pisanie do pliku, dopóki linia nie zawiera</p> tag, mówiąc;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}

Ale to nie działa. Czy ktoś mógłby mi pomóc?