Resultados da pesquisa a pedido "web-crawler"

3 a resposta

Como as regras Scrapy funcionam com o crawl spider

Tenho dificuldade em entender as regras das aranhas rastejantes. Eu tenho um exemplo que não funciona como eu gostaria, então pode ser duas coisas: Não entendo como as regras funcionam.Formei uma expressão regular incorreta que me impede de ...

1 a resposta

Curingas no robots.txt

Se no site do WordPress eu tenho categorias nesta ordem: -Parent --Child ---SubchildTenho permalinks definidos para:% category% /% postname% Vamos usar um exemplo. Crio post com o nome "Sport game". Sua marca é esporte-jogo. Seu URL completo é: ...

1 a resposta

Melhor solução para hospedar um rastreador? [fechadas]

Eu tenho um rastreador que rastreia alguns domínios diferentes para novas postagens / conteúdo. A quantidade total de conteúdo é de centenas de milhares de páginas e há muitos conteúdos novos adicionados a cada dia. Para poder rastrear todo esse ...

15 a resposta

Como eu faço um rastreador simples em PHP?

Eu tenho uma página da web com vários links. Quero escrever um script que despeje todos os dados contidos nesses links em um arquivo local. Alguém já fez isso com PHP? Diretrizes e truques gerais bastariam como resposta.

11 a resposta

Detectando rastreadores da web 'furtivos'

Que opções existem para detectar rastreadores da Web que não desejam ser detectados? (Eu sei que as técnicas de detecção de listagem permitirão que o programador inteligente de rastreadores furtivos faça uma aranha melhor, mas acho que ...

2 a resposta

Por que tenho diferentes contagens de documentos em status e índice?

Então, eu estou seguindo o tutorial Storm-Crawler-ElasticSearch e brincando com ele. Quando o Kibana é usado para pesquisar, notei que o número de ocorrências para o nome do índice 'status' é muito maior que 'index'. Exemplo: ...

1 a resposta

erro misterioso de trilhos quase sem deixar rastro

Estamos tendo um problema estranho com um rastreador. Ocasionalmente, ele lança umRails FATAL erro em alguma solicitação, mas o rastreamento é muito limitado e se parece com isso [2014-07-01 18:16:37] FATAL Rails : ArgumentError (invalid ...

2 a resposta

Falha ao rastrear elemento de um site específico com uma aranha raspada

Quero obter endereços de sites de alguns trabalhos, por isso escrevo uma aranha raspada, quero obter todo o valor comxpath://article/dl/dd/h2/a[@class="job-title"]/@href, mas quando executo a aranha com comando: scrapy spider auseek -a ...

3 a resposta

Scrapy é single-thread ou multi-thread?

Existem poucas configurações de simultaneidade no Scrapy, como CONCURRENT_REQUESTS [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests]. Isso significa que o rastreador Scrapy é multiencadeado? Então, se eu ...

2 a resposta

O rastreador do Facebook atualmente interpreta o javascript antes de analisar o DOM?

O link a seguir parece dizer que não pode:Como o Facebook Sharer seleciona Imagens e outros metadados ao compartilhar meu URL? [https://stackoverflow.com/questions/1138460/how-does-facebook-sharer-select-images] Mas eu queria saber se ainda é o ...