Resultados da pesquisa a pedido "web-scraping"

6 a resposta

Como você raspa tela? [fechadas]

Quando não há uma API de serviço da web disponível, sua única opção pode ser Screen Scrape, mas como você faz isso em c #? como você pensa em fazer isso?

1 a resposta

Analisando JS com Sopa Bonita

Tenho uma página analisada com uma bela sopa. Mas lá tenho o código js: <script type="text/javascript"> var utag_data = { customer_id : "_PHL2883198554", customer_type : "New", loyalty_id : "N", declined_loyalty_interstitial : "false", ...

5 a resposta

Como navegar em um site inteiro usando selênio?

É possível percorrer todos os URIs de um determinado URL (site) usandoselênio [https://pypi.python.org/pypi/selenium] ? Meu objetivo é iniciar o navegador Firefox usando selênio com um determinado URL de minha escolha (eu sei como fazê-lo graças ...

2 a resposta

Autenticação NTLM com Scrapy para raspagem na web

Estou tentando raspar dados de um site que requer autenticação. Consegui fazer login com êxito usando solicitações e HttpNtlmAuth com o seguinte: s = requests.session() url = "https://website.com/things" response = ...

2 a resposta

Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?

Quero raspar rastreio de páginas nas quais o próximo link fica assim: <a href="#" onclick="return gotoPage('2');"> Next </a>O scrapy será capaz de interpretar o código javascript disso? Comlivehttpheaders extensão, descobri que clicar em Next ...

3 a resposta

Solução alternativa para vazamento de memória R com pacote XML

Estou tentando executar um programa simples para extrair tabelas do código html. No entanto, parece haver algum problema de memória com o readHTMLTable no pacote XML. Existe alguma maneira de eu resolver isso facilmente. Como, de alguma forma, ...

3 a resposta

Como posso capturar e processar os dados das respostas XHR usando casperjs?

Os dados na página da Web são exibidos dinamicamente e parece que verificar todas as alterações no html e extrair os dados é uma tarefa muito assustadora e também precisa que eu use XPaths não confiáveis. Então, eu gostaria de poder extrair os ...

2 a resposta

selecionando o segundo filho em uma bela sopa com soup.select?

Eu tenho: <h2 id='names'>Names</h2> <p>John</p> <p>Peter</p>Agora, qual é a maneira mais fácil de obter o Peter aqui, se eu já tiver a tag h2? Agora eu tentei: soup.select("#names > p:nth-child(1)")mas aqui eu recebo o ...

1 a resposta

Como raspar dados de URL do site da intranet usando python?

Eu preciso de um guerreiro Python para me ajudar (eu sou um noob)! Estou tentando raspar certos dados de um site intra-net usando o módulo urllib. No entanto, como o site da minha empresa está disponível apenas para os funcionários visualizarem e ...

1 a resposta

Não é possível localizar os dados exibidos no código-fonte ao Raspar com Raspar

Estou usando o Python.org versão 2.7 de 64 bits no Windows Vista de 64 bits. Estou usando uma combinação de Scrapy e regex para extrair informações de um item Javascript chamado 'DataStore.Prime' na seguinte ...