Como evitar as tags de cabeçalho html circundantes na análise Jsoup
Usando o Jsoup, tento analisar o conteúdo html fornecido. Após Jsoup.parse (), a saída html anexa a tag html, head e body à entrada. Eu só quero ignorar isso.
Entrada de amostra:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
Código Java:
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HTMLParse {
public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);
Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
Saída real:
<html><head></head><body><p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
</body></html>
Saída esperada:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
Por favor ajude.