Który robot indeksujący wyodrębnia i analizuje dane z około tysiąca stron internetowych

Question

Oct 31, 2009, 09:11 AM

Który robot indeksujący wyodrębnia i analizuje dane z około tysiąca stron internetowych

Próbuję zaindeksować około tysiąca stron internetowych, z których interesuje mnie tylko zawartość HTML.

Następnie przekształcam kod HTML w XML, aby go przeanalizować z Xpath, aby wyodrębnić konkretną treść, która mnie interesuje.

Używam robota indeksującego Heritrix 2.0 od kilku miesięcy, ale natknąłem się na ogromne problemy z wydajnością, pamięcią i stabilnością (Heritrix zawiesza się każdego dnia, a żadne atemy z parametrami JVM ograniczającymi użycie pamięci nie powiodły się).

Z doświadczenia w tej dziedzinie, który robot indeksujący użyłby do wyodrębniania i analizowania treści z tysiąca źródeł?

questionAnswers(3)

Popularne pytania

0 odpowiedzi

Rekurencyjnie dir () obiekt Pythona w celu znalezienia wartości określonego typu lub o określonej wartości

0 odpowiedzi

Kiedy kowariancja C ++ jest najlepszym rozwiązaniem?

0 odpowiedzi

Zezwalaj tylko na określone znaki w polu tekstowym

0 odpowiedzi

Jak znaleźć numer w ciągu za pomocą JavaScript?

0 odpowiedzi

Scalanie 1000 plików PDF za pomocą iText powoduje wyświetlenie java.lang.OutOfMemoryError: miejsca sterty Java

Jesteś bardzo aktywny! To świetnie!

Który robot indeksujący wyodrębnia i analizuje dane z około tysiąca stron internetowych

questionAnswers(3)

yourAnswerToTheQuestion

Popularne pytania