Który robot indeksujący wyodrębnia i analizuje dane z około tysiąca stron internetowych

Próbuję zaindeksować około tysiąca stron internetowych, z których interesuje mnie tylko zawartość HTML.

Następnie przekształcam kod HTML w XML, aby go przeanalizować z Xpath, aby wyodrębnić konkretną treść, która mnie interesuje.

Używam robota indeksującego Heritrix 2.0 od kilku miesięcy, ale natknąłem się na ogromne problemy z wydajnością, pamięcią i stabilnością (Heritrix zawiesza się każdego dnia, a żadne atemy z parametrami JVM ograniczającymi użycie pamięci nie powiodły się).

Z doświadczenia w tej dziedzinie, który robot indeksujący użyłby do wyodrębniania i analizowania treści z tysiąca źródeł?

questionAnswers(3)

yourAnswerToTheQuestion