Resultados da pesquisa a pedido "web-crawler"

16 a resposta

como identificar rastreadores da web do google / yahoo / msn pelo PHP?

ATÉ ONDE SEI $ _ SERVER ['REMOTE_HOST'] deve terminar com "google.com" ou "yahoo.com". mas é o método mais seguro? qualquer outra saída?

4 a resposta

Equivalente do wget em Python para baixar o site e os recursos

Same thing perguntou há 2,5 anos emBaixando uma página da web e todos os seus arquivos de recursos em Python [https://stackoverflow.com/questions/844115/downloading-a-web-page-and-all-of-its-resource-files-in-python] , mas não leva a uma resposta ...

10 a resposta

Como solicitar ao Google que rastreie novamente meu site? [fechadas

Alguém sabe como solicitar ao Google que rastreie novamente um site? Se possível, isso não deve durar meses. Meu site está mostrando um título antigo nos resultados de pesquisa do Google. Como posso mostrá-lo com o título e a descrição corretos?

2 a resposta

Posso executar o scrapy (python) crawl fora do diretório do projet

Os documentos dizem que eu só poderia executar o comando crawl dentro do diretório do projeto: scrapy crawl tutor -o items.json -t json mas eu realmente preciso executá-lo no meu código python (o arquivo python não está dentro do diretório atual ...

12 a resposta

Como dar um URL para raspar para rastreamento?

Eu quero usar scrapy para rastrear páginas da web. Existe uma maneira de transmitir o URL de início do próprio terminal? É dado nodocumentaçã [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl] que o nome da aranha ou o URL ...

10 a resposta

Criar uma aranha raspada genérica

Minha pergunta é realmente como fazer a mesma coisa que uma pergunta anterior, mas no Scrapy 0.1 Usando uma aranha Scrapy para vários sites [https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites] ...