Resultados de la búsqueda a petición "nutch"

5 la respuesta

¿Cómo guardo el archivo html de origen con Apache Nutch?

Soy nuevo en los motores de búsqueda y rastreadores web. Ahora quiero almacenar todas las páginas originales en un sitio web particular como archivos html, p...

1 la respuesta

Nutch Raw html ahorro

Estoy tratando de obtener el html en bruto de las páginas rastreadas en diferentes archivos, llamado como url de la página. Es posible conNutch para guardar ...

4 la respuesta

¿Cómo analizar html con nutch e indexar etiquetas específicas para solr?

he instalado nutch y solr para rastrear un sitio web y buscar en él; como saben, podemos indexar etiquetas meta de páginas web en solr con el complemento par...

1 la respuesta

Apache Nutch 2.1 ID de lote diferente (nulo)

4 la respuesta

No aparece el mensaje "No se ha activado IndexWriters" mientras se carga a solr

He ejecutado rastreador de nutch según tutorial de nutchhttp://wiki.apache.org/nutch/NutchTutorial pero cuando comencé a cargarlo a solr, recibo este mensaje...

3 la respuesta

Usando rastreador Nutch con Solr

1 la respuesta

Nutch versus Solr

Actualmente estoy recopilando información sobre dónde debería usar Nutch con Solr (dominio - búsqueda web vertical). ¿Podrías sugerirme?

1 la respuesta

Deduplicación en nutch 1.11 para sitios que tienen el mismo contenido y diferentes URI

Estoy usando nutch para rastrear sitios de intranet. Encontré un escenario en el que 2 sitios tienen el mismo contenido (en comparación con la fuente de vista de ambos sitios usando notepad ++) pero URI diferente. ...

7 la respuesta

Algoritmo Web Cralwer: ¿profundidad?

Estoy trabajando en un rastreador y necesito entender exactamente qué se entiende por "profundidad de enlace". Tome nutch por ejemplo: http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial] profundidad indica la ...

2 la respuesta

Volver a rastrear sitios web rápidamente

Estoy desarrollando un sistema que tiene que rastrear el contenido de algunos portales y verificar los cambios todas las noches (por ejemplo, descargar e indexar nuevos sitios que se han agregado durante el día). El contenido de estos portales se ...