Resultados da pesquisa a pedido "nutch"
Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente
Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. ...
O Nutch 2.2.1 não continua após o trabalho do Injector
Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...
A indexação do Solr após um rastreamento Nutch falha, informa "Falha no trabalho"
Eu tenho um site hospedado na minha máquina local que estou tentando rastrear com Nutch e indexar no Solr (ambos também na minha máquina local). Instalei o Solr 4.6.1 e o Nutch 1.7 de acordo com as instruções fornecidas no site do ...
como analisar html com nutch e indexar tag específica para solr?
Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...
Nutch Raw Html Salvando
Estou tentando obter o HTML bruto de páginas rastreadas em arquivos diferentes, nomeado como URL da página. É possível comNutch salvar as páginas HTML em arq...
Como faço para salvar o arquivo html de origem com o Apache Nutch
Sou novo nos mecanismos de pesquisa e nos rastreadores da web. Agora eu quero armazenar todas as páginas originais em um determinado site como arquivos html,...
Usando o Nutch para rastrear uma lista de URLs especificadas
Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...
Apache Nutch para indexar apenas parte do conteúdo da página
Indo usarApache Nutch v1.3 para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span ...
Página 1 do 2