Resultados da pesquisa a pedido "scrapy"
Aranha raspada envia sinal spider_close antes de fechar
Eu tenho uma aranha que usa um arquivo como parâmetro, esse arquivo contém os xpaths. A aranha analisa o arquivo, obtém os xpaths e começa a rastrear. Tudo está funcionando bem Agora, quero executar essa aranha várias vezes, então fiz ...
Rastrear vários domínios com Scrapy sem cruzar
Configurei um CrawlSpider agregando todos os links externos (rastreando a partir destart_urls apenas uma certa profundidade via, p.DEPTH_LIMIT = 2) class LinkNetworkSpider(CrawlSpider): name = "network" allowed_domains = ["exampleA.com"] ...
djangoitem riscado com chave estrangeira
Esta pergunta foi feita aquiChaves estrangeiras em Scrapy [https://stackoverflow.com/questions/15017331/foreign-keys-on-scrapy]sem uma resposta aceita, por isso estou aqui para re-levantar a questão com uma configuração mínima definida mais ...
Autenticação NTLM com Scrapy para raspagem na web
Estou tentando raspar dados de um site que requer autenticação. Consegui fazer login com êxito usando solicitações e HttpNtlmAuth com o seguinte: s = requests.session() url = "https://website.com/things" response = ...
Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?
Quero raspar rastreio de páginas nas quais o próximo link fica assim: <a href="#" onclick="return gotoPage('2');"> Next </a>O scrapy será capaz de interpretar o código javascript disso? Comlivehttpheaders extensão, descobri que clicar em Next ...
Falha ao rastrear elemento de um site específico com uma aranha raspada
Quero obter endereços de sites de alguns trabalhos, por isso escrevo uma aranha raspada, quero obter todo o valor comxpath://article/dl/dd/h2/a[@class="job-title"]/@href, mas quando executo a aranha com comando: scrapy spider auseek -a ...
Scrapy é single-thread ou multi-thread?
Existem poucas configurações de simultaneidade no Scrapy, como CONCURRENT_REQUESTS [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests]. Isso significa que o rastreador Scrapy é multiencadeado? Então, se eu ...
Usando phantomjs para conteúdo dinâmico com possível condição de corrida com rascunho e selênio
Primeiro, esta é uma pergunta de acompanhamento a partir daqui:Alterar número de aranhas correndo scrapyd [https://stackoverflow.com/questions/24960303/change-number-of-running-spiders-scrapyd] Usei phantomjs e selênio para criar um middleware ...
Obter documento DOCTYPE com BeautifulSoup
Eu apenas comecei a mexer comraspar [http://scrapy.org/]em conjunção com BeautifulSoup [http://www.crummy.com/software/BeautifulSoup/]e estou me perguntando se estou perdendo algo muito óbvio, mas não consigo descobrir como obter o doctype de um ...
Exportar arquivo csv de scrapy (não via linha de comando)
Tentei exportar meus itens com sucesso para um arquivo csv na linha de comando, como: scrapy crawl spiderName -o filename.csvMinha pergunta é: Qual é a solução mais fácil de fazer o mesmo no código? Preciso disso enquanto extraio o nome ...