Resultados de la búsqueda a petición "nutch"

4 la respuesta

Cómo obtener el contenido html de nutch

¿Hay alguna forma de obtener el contenido html de cada página web en nutch mientras rastrea la página web?

4 la respuesta

Eliminación del menú de html durante el rastreo o indexación con nutch y solr

Estoy rastreando nuestro (s) sitio (s) web grande (s) con nutch y luego indexando con solr y los resultados son bastante buenos. Sin embargo, hay varias estructuras de menú en todo el sitio que indexan y estropean los resultados de una ...

2 la respuesta

Nutch No hay agentes listados en 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

3 la respuesta

Apache Nutch para indexar solo parte del contenido de la página

Vamos a usarApache Nutch v1.3 para extraer solo contenido específico de las páginas web. Comprobado el complemento parse-html. Parece que normaliza cada página html usando tagsoup o nekohtml. Esto es bueno. Necesito extraer solo texto dentro ...

4 la respuesta

Utilizando Nutch para rastrear una lista de URL especificada

Tengo un millón de listas de URL para buscar. Utilizo esta lista como semillas de nuez y utilizo la @ básigatea comando de Nutch para buscarlos. Sin embargo, encuentro que Nutch busca automáticamente las URL que no están en la lista. Establezco ...