Resultados da pesquisa a pedido "web-crawler"
O Scrapy SgmlLinkExtractor está ignorando os links permitidos
Por favor, dê uma olhadaeste exemplo de aranha na documentação do Scrapy. A explicação é:Essa aranha começaria a rastrear a página inicial de example.com, co...
Sites que são particularmente desafiadores para rastrear e raspar? [fechadas]
Estou interessado em sites voltados ao público (nada por trás de um login / autenticação) com coisas como:Alto uso de redirecionamentos internos 301 e 302Med...
Scrapy Python Configure o Agente do Usuário
Tentei substituir o user-agent do meu crawlspider adicionando uma linha extra ao projetoarquivo de configuração. Aqui está o código:
Detectar rastreadores de pesquisa por meio de JavaScript
Eu estou querendo saber como eu iria abouts na detecção de rastreadores de pesquisa? O motivo de eu perguntar é porque eu quero suprimir certas chamadas Java...
Os rastreadores do Google interpretam Javascript? E se eu carregar uma página pelo AJAX? [fechadas]
Quando um usuário entra na minha página, eu tenho que fazer outra chamada AJAX ... para carregar dados dentro de uma div. É assim que meu aplicativo funciona...
Buscar conteúdo (carregado por meio de uma chamada AJAX) de uma página da web
Eu sou um iniciante a rastejar. Eu tenho um requisito para buscar as postagens e comentários de um link. Eu quero automatizar esse processo. Eu considerei o ...
Posso usar o WGET para gerar um mapa do site de acordo com o URL?
Preciso de um script que possa criar um site e retornar a lista de todas as páginas rastreadas em texto sem formatação ou formato semelhante; que enviarei aos mecanismos de pesquisa como mapa do site. Posso usar o WGET para gerar um mapa do site? ...