Resultados da pesquisa a pedido "scrapy"

1 a resposta

Como obter a ordem dos campos no item Scrapy

Estou interessado em manter a referência à ordem dos nomes dos campos em um item incorreto. onde isso é armazenado? >>> dir(item) Out[7]: ['_MutableMapping__marker', '__abstractmethods__', '__class__', '__contains__', '__delattr__', ...

2 a resposta

Regras dinâmicas baseadas em start_urls para Scrapy CrawlSpider?

Estou escrevendo um raspador Scrapy que usa o CrawlSpider para rastrear sites, revisar os links internos e raspar o conteúdo de qualquer link externo (links com um domínio diferente do domínio original). Consegui fazer isso com duas regras, mas ...

8 a resposta

Acesse modelos django dentro do Scrapy

É possível acessar meus modelos de django dentro de um pipeline Scrapy, para que eu possa salvar meus dados raspados diretamente no meu modelo? eu tenho vistoesta [https://scrapy.readthedocs.org/en/latest/topics/djangoitem.html], mas ...

1 a resposta

scrapy: preencha itens aninhados com itemLoader

Eu tenho esse objeto que estou tentando preencher com um itemLoader: { "domains": "string", "date_insert": "2016-12-23T11:25:00.213Z", "title": "string", "url": "string", "body": "string", "date": "2016-12-23T11:25:00.213Z", "authors": [ ...

1 a resposta

scrapy: o objeto 'module' não tem atributo 'OP_SINGLE_ECDH_USE'

Eu sou novo no scrapy, crio um projeto de exemplo no scrapy e executo o projeto. Eu recebi um erro AttributeError: 'module' object has no attribute 'OP_SINGLE_ECDH_USE'Código: import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" ...

1 a resposta

Forçar Python Scrapy a não codificar URL

Existem alguns URLs com[] nele como http://www.website.com/CN.html?value_ids[]=33&value_ids[]=5007Mas quando tento raspar esse URL com Scrapy, ele faz o pedido para este ...

1 a resposta

Scrapy + splash: não é possível selecionar o elemento

Estou aprendendo a usar raspar com esguicho. Como exercício, estou tentando visitarhttps://www.ubereats.com/stores/ [https://www.ubereats.com/stores/], clique na caixa de texto do endereço, insira um local e pressione o botão Enter para ir para a ...

1 a resposta

Início de sessão inicial irritante

Eu costumava usar a solicitação de formulário inicial para fazer login em um dos sites. No entanto, os desenvolvedores mudaram, adicionaram mais javascript e não consigo entender o que estou fazendo de errado. Eu adicionei o javascript, ...

0 a resposta

Inicializando objeto de pipeline com rastreador em scrapy

Baseado emScrapy: organização do programa ao interagir com o site secundário [https://stackoverflow.com/questions/42476106/scrapy-program-organization-when-interacting-with-secondary-website] , Eu tenho: class MyPipeline(object): def ...

1 a resposta

Por que estou recebendo o objeto '_SIGCHLDWaker' não tem atributo 'doWrite' no Scrapy?

Estou usando aranhas Scrapy dentro do aipo e estou recebendo esse tipo de erro aleatoriamente Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/site-packages/twisted/python/log.py", line 103, in callWithLogger return ...