HTML del sitio web grueso con JAVA [duplicado]

Question

Jan 30, 2012, 11:11 PM

HTML del sitio web grueso con JAVA [duplicado]

Esta pregunta ya tiene una respuesta aquí:

¿Qué analizador HTML es el mejor? [cerrado 3 respuestas

Quiero analizar un sitio web simple y extraer información de ese sitio web.

Solía analizar archivos XML con DocumentBuilderFactory, traté de hacer lo mismo para el archivo html pero siempre entra en un bucle infinito.

    URL url = new URL("http://www.deneme.com");
    URLConnection uc = url.openConnection();

    InputStreamReader input = new InputStreamReader(uc.getInputStream());
    BufferedReader in = new BufferedReader(input);
    String inputLine;

     FileWriter outFile = new FileWriter("orhancan");
     PrintWriter out = new PrintWriter(outFile);

    while ((inputLine = in.readLine()) != null) {
        out.println(inputLine);
    }

    in.close();
    out.close();

    File fXmlFile = new File("orhancan");
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
    Document doc = dBuilder.parse(fXmlFile);


    NodeList prelist = doc.getElementsByTagName("body");
    System.out.println(prelist.getLength());

¿Cuál es el problema? ¿O hay alguna forma más fácil de extraer datos de un sitio web para una etiqueta html determinada?