Resultados da pesquisa a pedido "web-scraping"
É possível conectar um mecanismo JavaScript com Ruby e Nokogiri?
Estou escrevendo um aplicativo para rastrear alguns sites e coletar dados deles. Estou usando Ruby, Curl e Nokogiri para fazer isso. Na maioria dos casos, é ...
Como extrair conteúdo dinâmico de ajax de uma página da web
Minha exigência é extrair o conteúdo necessário de uma página da web. A página tem uma seção que está sendo preenchida usando ajax. Quando eu vejo na fonte d...
Movendo-se entre páginas e raspar enquanto eu ando com o Nightmare
Existe um site que contém uma página com uma lista de 25 entradas, onde cada entrada é um link para uma página que contém algumas informações necessárias. Quero chegar à página da listagem e, em seguida: 1) clique no link da primeira entrada 2) ...
o lxml / orders pode selecionar opções suspensas e analisar o ajax resultante?
Eu tenho um site que estou tentando testar e, embora possa obter uma lista de opções em um menu suspenso, não tenho certeza de como selecioná-lo? Não há botão de envio, portanto, se eu o selecionar, ele carregará uma tabela ajax abaixo. Só não ...
Solicitação de obtenção de Python retornando HTML diferente da fonte de exibição
Estou tentando extrair a fanfiction de um arquivo de nossa própria URL para usar a biblioteca NLTK para fazer alguma análise linguística. No entanto, toda tentativa de extrair o HTML da URL está retornando tudo, exceto a fanfic (e o formulário de ...
Baixe uma página completa com scrapy
Quero baixar o conteúdo de uma página inteira usando scrapy. Com selênio, isso é bastante fácil: import os,sys reload(sys) sys.setdefaultencoding('utf8') from selenium import webdriver url = 'https://es.wikipedia.org/wiki/Python' driver ...
selecionando segundo filho em sopa bonita
Digamos que tenha: <div> <p>this is some text</p> <p>...and this is some other text</p> </div>Como recuperar o texto do segundo parágrafo em beautifulsoup?
Para exceder o limite ImportXML na planilha do Google
Estou preso em um "problema de raspagem" agora. Especialmente, quero extrair o nome do autor de uma página da web para a planilha do Google. Realmente a função=IMPORTXML(A2,"//span[@class='author vcard meta-item']") está funcionando, mas depois ...
Listas de seleção dinâmicas do CasperJS
Preciso de ajudaEu estou raspando dados deste site que tem um formulário que contém três listas de seleção interconectadas entre si que é se a qualquer opção...