Resultados da pesquisa a pedido "nutch"
Remover menus do html durante o rastreamento ou indexação com nutch e solr
Estou rastreando nosso (s) site (s) grande (s) com nutch e depois indexando com solr e os resultados são muito bons. No entanto, existem várias estruturas de menu no site que indexam e estragam os resultados de uma consult Cada um desses menus ...
como analisar html com nutch e indexar tag específica para solr?
Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...
Como obter o conteúdo html do nutch
Existe alguma maneira de obter o conteúdo html de cada página da Web durante o rastreamento da página?
Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente
Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. ...
Usando rastreador Nutch com Solr
Posso integrar o rastreador Apache Nutch ao servidor de índice Solr? Editar: Um de nossos desenvolvedores apresentou uma solução a partir desses posts Executando Nutch e Solr [http://wiki.apache.org/nutch/RunningNutchAndSolr] Atualização para ...
O Nutch 2.2.1 não continua após o trabalho do Injector
Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...
Usando o Nutch para rastrear uma lista de URLs especificadas
Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...
Como rastrear sites rapidamente
Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais ...
Como faço para salvar o arquivo html de origem com o Apache Nutch
Sou novo nos mecanismos de pesquisa e nos rastreadores da web. Agora eu quero armazenar todas as páginas originais em um determinado site como arquivos html,...
Página 1 do 2