Jak sprawić, by JTIdy sprawiło, że dokumenty HTML będą dobrze uformowane?
Używam JTidy v. R938. Używam tego kodu do próby wyczyszczenia strony…
<code>final Tidy tidy = new Tidy(); tidy.setQuiet(false); tidy.setShowWarnings(true); tidy.setShowErrors(0); tidy.setMakeClean(true); Document document = tidy.parseDOM(conn.getInputStream(), null); </code>
Ale kiedy analizuję ten adres URL -http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=To+Week&eventCategory=93922&keywords=&page=1, rzeczy nie są sprzątane. Na przykład znaczniki META na stronie, jak
<code><META http-equiv="Content-Type" content="text/html; charset=UTF-8"> </code>
pozostać jako
<code><META http-equiv="Content-Type" content="text/html; charset=UTF-8"> </code>
zamiast mieć tag „</META>” lub pojawiać się jako „<META http-equiv =” Content-Type „content =” text / html; charset = UTF-8 "/>". Potwierdzam to, wysyłając wynikowy plik JTidy org.w3c.dom.Document jako łańcuch.
Co mogę zrobić, aby JTidy naprawdę oczyściło stronę - tzn. Sprawiło, że była dobrze uformowana? Zdaję sobie sprawę, że istnieją inne narzędzia, ale to pytanie dotyczy w szczególności korzystania z JTIdy.