Resultados da pesquisa a pedido "nutch"

7 a resposta

Algoritmo Web Cralwer: profundidade?

Estou trabalhando em um rastreador e preciso entender exatamente o que se entende por "profundidade do link". Tome nutch, por exemplo: http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial] depth indica a ...

4 a resposta

Mensagem de Nutch "No IndexWriters ativado" durante o carregamento para solr

1 a resposta

Nutch Raw Html Salvando

Estou tentando obter o HTML bruto de páginas rastreadas em arquivos diferentes, nomeado como URL da página. É possível comNutch salvar as páginas HTML em arq...

4 a resposta

Usando o Nutch para rastrear uma lista de URLs especificadas

Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...

1 a resposta

Nutch versus Solr

Atualmente coleciono informações onde devo usar o Nutch com Solr (domínio - pesquisa na web vertical). Você poderia me sugerir?

1 a resposta

O Nutch 2.2.1 não continua após o trabalho do Injector

Estou aprendendo nada e tentando arrastar de acordo com issotutorial [https://wiki.apache.org/nutch/NutchTutorial].Estou trabalhando em uma máquina ubuntu com shell bash. Mas quando executo o script, a execução acontece, mas nada acontece ...

2 a resposta

Como rastrear sites rapidamente

Estou desenvolvendo um sistema que precisa rastrear o conteúdo de alguns portais e verificar alterações todas as noites (por exemplo, faça o download e indexe novos sites que foram adicionados durante o dia). O conteúdo desses portais ...

2 a resposta

Nutch Nenhum agente listado em 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

4 a resposta

Como obter o conteúdo html do nutch

Existe alguma maneira de obter o conteúdo html de cada página da Web durante o rastreamento da página?

1 a resposta

Apache Nutch 2.1 id de lote diferente (null)