Resultados da pesquisa a pedido "web-crawler"
erro misterioso de trilhos quase sem deixar rastro
Estamos tendo um problema estranho com um rastreador. Ocasionalmente, ele lança umRails FATAL erro em alguma solicitação, mas o rastreamento é muito limitado e se parece com isso [2014-07-01 18:16:37] FATAL Rails : ArgumentError (invalid ...
Falha ao rastrear elemento de um site específico com uma aranha raspada
Quero obter endereços de sites de alguns trabalhos, por isso escrevo uma aranha raspada, quero obter todo o valor comxpath://article/dl/dd/h2/a[@class="job-title"]/@href, mas quando executo a aranha com comando: scrapy spider auseek -a ...
Melhor solução para hospedar um rastreador? [fechadas]
Eu tenho um rastreador que rastreia alguns domínios diferentes para novas postagens / conteúdo. A quantidade total de conteúdo é de centenas de milhares de páginas e há muitos conteúdos novos adicionados a cada dia. Para poder rastrear todo esse ...
Curingas no robots.txt
Se no site do WordPress eu tenho categorias nesta ordem: -Parent --Child ---SubchildTenho permalinks definidos para:% category% /% postname% Vamos usar um exemplo. Crio post com o nome "Sport game". Sua marca é esporte-jogo. Seu URL completo é: ...
Como as regras Scrapy funcionam com o crawl spider
Tenho dificuldade em entender as regras das aranhas rastejantes. Eu tenho um exemplo que não funciona como eu gostaria, então pode ser duas coisas: Não entendo como as regras funcionam.Formei uma expressão regular incorreta que me impede de ...
Como recuperar automaticamente chamadas de URL AJAX para?
O objetivo é programar um rastreador capaz de: 1) Recupere o URL dos links que estão na tabela desta página: http://cordis.europa.eu/fp7/security/projects_en.html [http://cordis.europa.eu/fp7/security/projects_en.html] 2) Siga a chamada AJAX de ...
Scrapy Spider para resposta JSON
Estou tentando escrever uma aranha que rastreie a seguinte resposta JSON: http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json [http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json] Como ficaria ...
Buscar conteúdo (carregado por meio de uma chamada AJAX) de uma página da web
Eu sou um iniciante a rastejar. Eu tenho um requisito para buscar as postagens e comentários de um link. Eu quero automatizar esse processo. Eu considerei o ...
Detectar rastreadores de pesquisa por meio de JavaScript
Eu estou querendo saber como eu iria abouts na detecção de rastreadores de pesquisa? O motivo de eu perguntar é porque eu quero suprimir certas chamadas Java...