Resultados de la búsqueda a petición "nutch"

1 la respuesta

Deduplicación en nutch 1.11 para sitios que tienen el mismo contenido y diferentes URI

Estoy usando nutch para rastrear sitios de intranet. Encontré un escenario en el que 2 sitios tienen el mismo contenido (en comparación con la fuente de vista de ambos sitios usando notepad ++) pero URI diferente. ...

4 la respuesta

No aparece el mensaje "No se ha activado IndexWriters" mientras se carga a solr

He ejecutado rastreador de nutch según tutorial de nutchhttp://wiki.apache.org/nutch/NutchTutorial pero cuando comencé a cargarlo a solr, recibo este mensaje...

1 la respuesta

Apache Nutch 2.1 ID de lote diferente (nulo)

4 la respuesta

¿Cómo analizar html con nutch e indexar etiquetas específicas para solr?

he instalado nutch y solr para rastrear un sitio web y buscar en él; como saben, podemos indexar etiquetas meta de páginas web en solr con el complemento par...

1 la respuesta

Nutch Raw html ahorro

Estoy tratando de obtener el html en bruto de las páginas rastreadas en diferentes archivos, llamado como url de la página. Es posible conNutch para guardar ...

5 la respuesta

¿Cómo guardo el archivo html de origen con Apache Nutch?

Soy nuevo en los motores de búsqueda y rastreadores web. Ahora quiero almacenar todas las páginas originales en un sitio web particular como archivos html, p...

4 la respuesta

Utilizando Nutch para rastrear una lista de URL especificada

Tengo un millón de listas de URL para buscar. Utilizo esta lista como semillas de nuez y utilizo la @ básigatea comando de Nutch para buscarlos. Sin embargo, encuentro que Nutch busca automáticamente las URL que no están en la lista. Establezco ...

3 la respuesta

Apache Nutch para indexar solo parte del contenido de la página

Vamos a usarApache Nutch v1.3 para extraer solo contenido específico de las páginas web. Comprobado el complemento parse-html. Parece que normaliza cada página html usando tagsoup o nekohtml. Esto es bueno. Necesito extraer solo texto dentro ...

2 la respuesta

Nutch No hay agentes listados en 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

4 la respuesta

Eliminación del menú de html durante el rastreo o indexación con nutch y solr

Estoy rastreando nuestro (s) sitio (s) web grande (s) con nutch y luego indexando con solr y los resultados son bastante buenos. Sin embargo, hay varias estructuras de menú en todo el sitio que indexan y estropean los resultados de una ...