Resultados da pesquisa a pedido "web-crawler"
Como as regras Scrapy funcionam com o crawl spider
Tenho dificuldade em entender as regras das aranhas rastejantes. Eu tenho um exemplo que não funciona como eu gostaria, então pode ser duas coisas: Não entendo como as regras funcionam.Formei uma expressão regular incorreta que me impede de ...
Curingas no robots.txt
Se no site do WordPress eu tenho categorias nesta ordem: -Parent --Child ---SubchildTenho permalinks definidos para:% category% /% postname% Vamos usar um exemplo. Crio post com o nome "Sport game". Sua marca é esporte-jogo. Seu URL completo é: ...
Melhor solução para hospedar um rastreador? [fechadas]
Eu tenho um rastreador que rastreia alguns domínios diferentes para novas postagens / conteúdo. A quantidade total de conteúdo é de centenas de milhares de páginas e há muitos conteúdos novos adicionados a cada dia. Para poder rastrear todo esse ...
Como eu faço um rastreador simples em PHP?
Eu tenho uma página da web com vários links. Quero escrever um script que despeje todos os dados contidos nesses links em um arquivo local. Alguém já fez isso com PHP? Diretrizes e truques gerais bastariam como resposta.
Detectando rastreadores da web 'furtivos'
Que opções existem para detectar rastreadores da Web que não desejam ser detectados? (Eu sei que as técnicas de detecção de listagem permitirão que o programador inteligente de rastreadores furtivos faça uma aranha melhor, mas acho que ...
Por que tenho diferentes contagens de documentos em status e índice?
Então, eu estou seguindo o tutorial Storm-Crawler-ElasticSearch e brincando com ele. Quando o Kibana é usado para pesquisar, notei que o número de ocorrências para o nome do índice 'status' é muito maior que 'index'. Exemplo: ...
erro misterioso de trilhos quase sem deixar rastro
Estamos tendo um problema estranho com um rastreador. Ocasionalmente, ele lança umRails FATAL erro em alguma solicitação, mas o rastreamento é muito limitado e se parece com isso [2014-07-01 18:16:37] FATAL Rails : ArgumentError (invalid ...
Falha ao rastrear elemento de um site específico com uma aranha raspada
Quero obter endereços de sites de alguns trabalhos, por isso escrevo uma aranha raspada, quero obter todo o valor comxpath://article/dl/dd/h2/a[@class="job-title"]/@href, mas quando executo a aranha com comando: scrapy spider auseek -a ...
Scrapy é single-thread ou multi-thread?
Existem poucas configurações de simultaneidade no Scrapy, como CONCURRENT_REQUESTS [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests]. Isso significa que o rastreador Scrapy é multiencadeado? Então, se eu ...
O rastreador do Facebook atualmente interpreta o javascript antes de analisar o DOM?
O link a seguir parece dizer que não pode:Como o Facebook Sharer seleciona Imagens e outros metadados ao compartilhar meu URL? [https://stackoverflow.com/questions/1138460/how-does-facebook-sharer-select-images] Mas eu queria saber se ainda é o ...