Cómo obtener contenido de rastreo en Crawljax

Question

Jan 14, 2015, 07:03 AM

Cómo obtener contenido de rastreo en Crawljax

He rastreado la página web dinámica usando Crawljax. Puedo conseguir rastrear id, estado y dom actuales. pero no puedo obtener el contenido del sitio web. ¿Alguien me ayuda?

CrawljaxConfigurationBuilder builder =
            CrawljaxConfiguration.builderFor("http://demo.crawljax.com/");
    builder.addPlugin(new OnNewStatePlugin() {



        @Override
        public String toString() {
            return "Our example plugin";
        }

                @Override
                public void onNewState(CrawlerContext cc, StateVertex sv) {

                    LOG.info("Found a new dom! Here it is:\n{}", cc.getBrowser().getStrippedDom());
                       String name = cc.getCurrentState().getName();
String url = cc.getBrowser().getCurrentUrl();
System.out.println(cc.getCurrentState().getDom());
System.out.println("New State: " + name + "; url: " + url);
                }
    });
    CrawljaxRunner crawljax = new CrawljaxRunner(builder.build());
    crawljax.call();

Cómo obtener contenido dinámico / java script de la página web.