Resultados da pesquisa a pedido "nutch"

1 a resposta

Nutch Raw Html Salvando

Estou tentando obter o HTML bruto de páginas rastreadas em arquivos diferentes, nomeado como URL da página. É possível comNutch salvar as páginas HTML em arq...

1 a resposta

Apache Nutch 2.1 id de lote diferente (null)

1 a resposta

O Nutch 2.2.1 não continua após o trabalho do Injector

Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...

1 a resposta

Nutch versus Solr

Atualmente coleciono informações onde devo usar o Nutch com Solr (domínio - pesquisa na web vertical). Você poderia me sugerir?

1 a resposta

Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente

Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. ...

2 a resposta

Como rastrear sites rapidamente

Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais ...

2 a resposta

Nutch Nenhum agente listado em 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

3 a resposta

Usando rastreador Nutch com Solr

Posso integrar o rastreador Apache Nutch ao servidor de índice Solr? Editar: Um de nossos desenvolvedores apresentou uma solução a partir desses posts Executando Nutch e Solr [http://wiki.apache.org/nutch/RunningNutchAndSolr] Atualização para ...

3 a resposta

A indexação do Solr após um rastreamento Nutch falha, informa "Falha no trabalho"

Eu tenho um site hospedado na minha máquina local que estou tentando rastrear com Nutch e indexar no Solr (ambos também na minha máquina local). Instalei o Solr 4.6.1 e o Nutch 1.7 de acordo com as instruções fornecidas no site do ...

3 a resposta

Apache Nutch para indexar apenas parte do conteúdo da página

Indo usarApache Nutch v1.3 para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span ...