Resultados da pesquisa a pedido "nutch"
Algoritmo Web Cralwer: profundidade?
Estou trabalhando em um rastreador e preciso entender exatamente o que se entende por "profundidade do link". Tome nutch, por exemplo: http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial] depth indica a ...
Nutch Raw Html Salvando
Estou tentando obter o HTML bruto de páginas rastreadas em arquivos diferentes, nomeado como URL da página. É possível comNutch salvar as páginas HTML em arq...
Usando o Nutch para rastrear uma lista de URLs especificadas
Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...
Nutch versus Solr
Atualmente coleciono informações onde devo usar o Nutch com Solr (domínio - pesquisa na web vertical). Você poderia me sugerir?
O Nutch 2.2.1 não continua após o trabalho do Injector
Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...
Como rastrear sites rapidamente
Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais ...
Nutch Nenhum agente listado em 'http.agent.name'
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...
Como obter o conteúdo html do nutch
Existe alguma maneira de obter o conteúdo html de cada página da Web durante o rastreamento da página?
Página 1 do 2