Resultados da pesquisa a pedido "nutch"
Nutch Raw Html Salvando
Estou tentando obter o HTML bruto de páginas rastreadas em arquivos diferentes, nomeado como URL da página. É possível comNutch salvar as páginas HTML em arq...
O Nutch 2.2.1 não continua após o trabalho do Injector
Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...
Nutch versus Solr
Atualmente coleciono informações onde devo usar o Nutch com Solr (domínio - pesquisa na web vertical). Você poderia me sugerir?
Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente
Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. ...
Como rastrear sites rapidamente
Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais ...
Nutch Nenhum agente listado em 'http.agent.name'
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...
Usando rastreador Nutch com Solr
Posso integrar o rastreador Apache Nutch ao servidor de índice Solr? Editar: Um de nossos desenvolvedores apresentou uma solução a partir desses posts Executando Nutch e Solr [http://wiki.apache.org/nutch/RunningNutchAndSolr] Atualização para ...
A indexação do Solr após um rastreamento Nutch falha, informa "Falha no trabalho"
Eu tenho um site hospedado na minha máquina local que estou tentando rastrear com Nutch e indexar no Solr (ambos também na minha máquina local). Instalei o Solr 4.6.1 e o Nutch 1.7 de acordo com as instruções fornecidas no site do ...
Apache Nutch para indexar apenas parte do conteúdo da página
Indo usarApache Nutch v1.3 para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span ...
Página 1 do 2