calling controller (crawler4j-3.5) innerhalb der Schleife
Hallo, ich rufe ancontroller
Innerhalbfor-loop
, weil ich mehr als 100 URLs habe, also habe ich alle in der Liste und ich werde iterieren undcrawl
uf der Seite habe ich diese URL auch für setCustomData festgelegt, da sie die Domain nicht verlassen sollt
for (Iterator<String> iterator = ifList.listIterator(); iterator.hasNext();) {
String str = iterator.next();
System.out.println("cheking"+str);
CrawlController controller = new CrawlController(config, pageFetcher,
robotstxtServer);
controller.setCustomData(str);
controller.addSeed(str);
controller.startNonBlocking(BasicCrawler.class, numberOfCrawlers);
controller.waitUntilFinish();
}
aber wenn ich über dem Code laufe, crawlt die erste URL perfekt nach dem Start der zweiten URL und druckt den Fehler wie unten.
50982 [main] INFO edu.uci.ics.crawler4j.crawler.CrawlController - Crawler 1 started.
51982 [Crawler 1] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection request: [route: {}->http://www.connectzone.in][total kept alive: 0; route allocated: 0 of 100; total allocated: 0 of 100]
60985 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - It looks like no thread is working, waiting for 10 seconds to make sure...
70986 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - No thread is working and no more URLs are in queue waiting for another 10 seconds to make sure...
80986 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - All of the crawlers are stopped. Finishing the process...
80987 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - Waiting for 10 seconds before final clean up...
91050 [Thread-2] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection manager is shutting down
91051 [Thread-2] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection manager shut down
Bitte helfen Sie mir, die oben genannte Lösung zu lösen, meine Interaktion zum Starten und Ausführen des Controllers in der Schleife, weil ich viel URL in der Liste habe.
HINWEIS: ** Ich verwende ** crawler4j-3.5.jar und ihre Abhängigkeiten.