Resultados da pesquisa a pedido "scrapy-spider"
raspar várias páginas com raspar
Estou tentando usar o scrapy para raspar um site que tenha várias páginas de informações. meu código é: from scrapy.spider import BaseSpider from scrapy.selector import Selector from tcgplayer1.items import Tcgplayer1Item class ...
Passar argumento para scrapy spider dentro de um script python
Posso executar o rastreamento em um script python com a seguinte receita do wiki: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider ...
Herança múltipla em aranhas arranhadas
É possível criar uma aranha que herda a funcionalidade de duas aranhas base, a saber SitemapSpider e CrawlSpider? Eu tenho tentado raspar dados de vários sites e percebi que nem todos os sites têm uma lista de todas as páginas do site, portanto, ...
Como evitar um erro twisted.internet.error.ConnectionLost ao usar Scrapy?
Estou raspando algumas páginas comscrapy [http://scrapy.org/]e obtenha o seguinte erro: twisted.internet.error.ConnectionLost Minha saída de linha de comando: 2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened 2015-05-04 ...
Scrapy: captura respostas com códigos de servidor HTTP específicos
Temos um projeto Scrapy padrão (Scrapy 0.24). Gostaria de pegar códigos de resposta HTTP específicos, como 200, 500, 502, 503, 504 etc. Algo parecido: class Spider(...): def parse(...): processes HTTP 200 def parse_500(...): processes HTTP 500 ...
Multiprocessamento de aranhas riscadas em processos paralelos
Existem várias perguntas semelhantes que eu já li no Stack Overflow. Infelizmente, perdi links de todos eles, porque meu histórico de navegação foi excluído inesperadamente. Todas as perguntas acima não puderam me ajudar. Alguns deles usaram ...
Raspagem de repetição de aranha
Para uma página que estou tentando raspar, às vezes recebo uma página de "espaço reservado" na minha resposta que contém algum javascript que é carregado automaticamente até que ela chegue à página real. Posso detectar quando isso acontece e ...
Como controlar a ordem de rendimento no Scrapy
Socorro! Lendo o seguinte código incorreto e o resultado do rastreador. Quero rastrear alguns dados dehttp://china.fathom.info/data/data.json [http://china.fathom.info/data/data.json], e somenteScrapyé permitido. Mas não sei como controlar a ...
Arquivo de upload com scrapy
Estou fazendo uma solicitação de formulário para um site usando scrapy. O formulário requer o upload de um arquivo pdf. Como podemos fazê-lo no Scrapy. Estou tentando isso como ...
scrapy: preencha itens aninhados com itemLoader
Eu tenho esse objeto que estou tentando preencher com um itemLoader: { "domains": "string", "date_insert": "2016-12-23T11:25:00.213Z", "title": "string", "url": "string", "body": "string", "date": "2016-12-23T11:25:00.213Z", "authors": [ ...