Como faço para a JTIdy fazer documentos HTML bem formados?
Estou usando o JTidy v. R938. Eu estou usando este código para tentar limpar uma página ...
<code>final Tidy tidy = new Tidy(); tidy.setQuiet(false); tidy.setShowWarnings(true); tidy.setShowErrors(0); tidy.setMakeClean(true); Document document = tidy.parseDOM(conn.getInputStream(), null); </code>
Mas quando eu analisar este URL -http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1, as coisas não estão sendo limpas. Por exemplo, as tags META na página, como
<code><META http-equiv="Content-Type" content="text/html; charset=UTF-8"> </code>
permanecer como
<code><META http-equiv="Content-Type" content="text/html; charset=UTF-8"> </code>
em vez de ter uma tag "</ META>" ou aparecer como "<META http-equiv =" Tipo de conteúdo "content =" text / html; charset = UTF-8 "/>". Eu confirmo isso emitindo o JTidy org.w3c.dom.Document resultante como uma String.
O que posso fazer para que o JTidy realmente limpe a página - ou seja, torná-lo bem formado? Eu sei que existem outras ferramentas por aí, mas essa questão está relacionada especificamente ao uso do JTIdy.