Resultados da pesquisa a pedido "nutch"

1 a resposta

Nutch versus Solr

Atualmente coleciono informações onde devo usar o Nutch com Solr (domínio - pesquisa na web vertical). Você poderia me sugerir?

4 a resposta

Como obter o conteúdo html do nutch

Existe alguma maneira de obter o conteúdo html de cada página da Web durante o rastreamento da página?

1 a resposta

Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente

Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. ...

4 a resposta

Remover menus do html durante o rastreamento ou indexação com nutch e solr

Estou rastreando nosso (s) site (s) grande (s) com nutch e depois indexando com solr e os resultados são muito bons. No entanto, existem várias estruturas de menu no site que indexam e estragam os resultados de uma consult Cada um desses menus ...

2 a resposta

Nutch Nenhum agente listado em 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

3 a resposta

Apache Nutch para indexar apenas parte do conteúdo da página

Indo usarApache Nutch v1.3 para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span ...

4 a resposta

Usando o Nutch para rastrear uma lista de URLs especificadas

Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...