Извлечение текста из HTML Java

Question

Sep 06, 2009, 06:52 PM

screen-scraping text-extraction java html-content-extraction html

Извлечение текста из HTML Java

Я работаю над программой, которая загружает HTML-страницы, затем выбирает некоторую информацию и записывает ее в другой файл.

Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код выглядит следующим образом;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}

я пытался добавить еще один цикл, который будет указывать программе продолжать запись в файл, пока строка не содержит</p> тег, говоря;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}

Но это не работает. Может кто-нибудь, пожалуйста, помогите.

Извлечение текста из HTML Java

Ответы на вопрос(8)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение текста из HTML Java

Ответы на вопрос(8)

Ваш ответ на вопрос

Популярные вопросы