Resultados da pesquisa a pedido "scrapy"
usando scrapy para raspar o site asp.net com botões javascript e solicitações ajax
Eu estava tentando raspar um encontro com o site asp.net, a página inicial deve ser a seguinte:http://www.e3050.com/Items.aspx?cat=SONPrimeiro, quero exibir ...
Criar uma aranha raspada genérica
Minha pergunta é realmente como fazer a mesma coisa que uma pergunta anterior, mas no Scrapy 0.1 Usando uma aranha Scrapy para vários sites [https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites] ...
Como dar um URL para raspar para rastreamento?
Eu quero usar scrapy para rastrear páginas da web. Existe uma maneira de transmitir o URL de início do próprio terminal? É dado nodocumentaçã [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl] que o nome da aranha ou o URL ...
scrapy convert_image
Eu uso o Scrapy para rastrear algumas imagens, elas precisam cortar uma parte ou adicionar marca d'água. Eu sobrescrevo a funçãoconvert_image dentropipelines.py mas não funcionou. O código fica assim: class MyImagesPipeline(ImagesPipeline): def ...
scrapy permite todos os domínios
Eu viest [https://stackoverflow.com/questions/6320167/python-scrapy-allowed-domains-adding-new-domains-from-database] post para facilitar o rastreamento de qualquer site sem restrição de domínios permitido xiste alguma maneira melhor de ...
Posso executar o scrapy (python) crawl fora do diretório do projet
Os documentos dizem que eu só poderia executar o comando crawl dentro do diretório do projeto: scrapy crawl tutor -o items.json -t json mas eu realmente preciso executá-lo no meu código python (o arquivo python não está dentro do diretório atual ...
Scrapy: Siga o link para obter dados adicionais sobre itens?
Não tenho um problema de código específico. Apenas não tenho certeza de como abordar o seguinte problema logisticamente com a estrutura Scrapy: A estrutura dos dados que quero raspar é normalmente uma linha da tabela para cada item. Simples o ...
Scrapy 's Scrapyd muito lento com aranhas de agendamento
Estou executando o Scrapyd e encontro um problema estranho ao iniciar quatro aranhas ao mesmo temp 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST /schedule.json HTTP/1.1" 200 62 ...
Iterando sobre um dicionário em python e eliminando espaços em branco
Estou trabalhando com a estrutura de raspagem da Web Scrapy e sou meio noob quando se trata de python. Por isso, estou pensando em como iterar em todos os itens raspados que parecem estar em um dicionário e retirar o espaço em branco de cada um ...
Scrapy start_urls
O script [https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/dmoz.py] (abaixo) deest [http://doc.scrapy.org/en/latest/intro/tutorial.html] tutorial contém doisstart_urls. from scrapy.spider import Spider from scrapy.selector import ...