Resultados da pesquisa a pedido "scrapy"

0 a resposta

Aranha raspada envia sinal spider_close antes de fechar

Eu tenho uma aranha que usa um arquivo como parâmetro, esse arquivo contém os xpaths. A aranha analisa o arquivo, obtém os xpaths e começa a rastrear. Tudo está funcionando bem Agora, quero executar essa aranha várias vezes, então fiz ...

2 a resposta

Rastrear vários domínios com Scrapy sem cruzar

Configurei um CrawlSpider agregando todos os links externos (rastreando a partir destart_urls apenas uma certa profundidade via, p.DEPTH_LIMIT = 2) class LinkNetworkSpider(CrawlSpider): name = "network" allowed_domains = ["exampleA.com"] ...

1 a resposta

djangoitem riscado com chave estrangeira

Esta pergunta foi feita aquiChaves estrangeiras em Scrapy [https://stackoverflow.com/questions/15017331/foreign-keys-on-scrapy]sem uma resposta aceita, por isso estou aqui para re-levantar a questão com uma configuração mínima definida mais ...

2 a resposta

Autenticação NTLM com Scrapy para raspagem na web

Estou tentando raspar dados de um site que requer autenticação. Consegui fazer login com êxito usando solicitações e HttpNtlmAuth com o seguinte: s = requests.session() url = "https://website.com/things" response = ...

2 a resposta

Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?

Quero raspar rastreio de páginas nas quais o próximo link fica assim: <a href="#" onclick="return gotoPage('2');"> Next </a>O scrapy será capaz de interpretar o código javascript disso? Comlivehttpheaders extensão, descobri que clicar em Next ...

2 a resposta

Falha ao rastrear elemento de um site específico com uma aranha raspada

Quero obter endereços de sites de alguns trabalhos, por isso escrevo uma aranha raspada, quero obter todo o valor comxpath://article/dl/dd/h2/a[@class="job-title"]/@href, mas quando executo a aranha com comando: scrapy spider auseek -a ...

3 a resposta

Scrapy é single-thread ou multi-thread?

Existem poucas configurações de simultaneidade no Scrapy, como CONCURRENT_REQUESTS [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests]. Isso significa que o rastreador Scrapy é multiencadeado? Então, se eu ...

1 a resposta

Usando phantomjs para conteúdo dinâmico com possível condição de corrida com rascunho e selênio

Primeiro, esta é uma pergunta de acompanhamento a partir daqui:Alterar número de aranhas correndo scrapyd [https://stackoverflow.com/questions/24960303/change-number-of-running-spiders-scrapyd] Usei phantomjs e selênio para criar um middleware ...

3 a resposta

Obter documento DOCTYPE com BeautifulSoup

Eu apenas comecei a mexer comraspar [http://scrapy.org/]em conjunção com BeautifulSoup [http://www.crummy.com/software/BeautifulSoup/]e estou me perguntando se estou perdendo algo muito óbvio, mas não consigo descobrir como obter o doctype de um ...

2 a resposta

Exportar arquivo csv de scrapy (não via linha de comando)

Tentei exportar meus itens com sucesso para um arquivo csv na linha de comando, como: scrapy crawl spiderName -o filename.csvMinha pergunta é: Qual é a solução mais fácil de fazer o mesmo no código? Preciso disso enquanto extraio o nome ...