Resultados da pesquisa a pedido "web-crawler"
como identificar rastreadores da web do google / yahoo / msn pelo PHP?
ATÉ ONDE SEI $ _ SERVER ['REMOTE_HOST'] deve terminar com "google.com" ou "yahoo.com". mas é o método mais seguro? qualquer outra saída?
Equivalente do wget em Python para baixar o site e os recursos
Same thing perguntou há 2,5 anos emBaixando uma página da web e todos os seus arquivos de recursos em Python [https://stackoverflow.com/questions/844115/downloading-a-web-page-and-all-of-its-resource-files-in-python] , mas não leva a uma resposta ...
Como solicitar ao Google que rastreie novamente meu site? [fechadas
Alguém sabe como solicitar ao Google que rastreie novamente um site? Se possível, isso não deve durar meses. Meu site está mostrando um título antigo nos resultados de pesquisa do Google. Como posso mostrá-lo com o título e a descrição corretos?
Posso executar o scrapy (python) crawl fora do diretório do projet
Os documentos dizem que eu só poderia executar o comando crawl dentro do diretório do projeto: scrapy crawl tutor -o items.json -t json mas eu realmente preciso executá-lo no meu código python (o arquivo python não está dentro do diretório atual ...
Como dar um URL para raspar para rastreamento?
Eu quero usar scrapy para rastrear páginas da web. Existe uma maneira de transmitir o URL de início do próprio terminal? É dado nodocumentaçã [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl] que o nome da aranha ou o URL ...
Criar uma aranha raspada genérica
Minha pergunta é realmente como fazer a mesma coisa que uma pergunta anterior, mas no Scrapy 0.1 Usando uma aranha Scrapy para vários sites [https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites] ...