Resultados da pesquisa a pedido "web-scraping"
Raspe páginas da Web em tempo real com o Node.js
O que é bom era raspar o conteúdo do site usando o Node.js. Eu gostaria de criar algo muito, muito rápido que possa executar pesquisas no estilo dekayak.com [http://www.kayak.com], onde uma consulta é despachada para vários sites diferentes, os ...
Usando Python para raspar divs e extensões aninhadas no Twitter?
Estou tentando raspar os gostos e retweets dos resultados de uma pesquisa no Twitter. Depois de executar o Python abaixo, recebo uma lista vazia,[]. Não estou usando a API do Twitter, porque ela não olha para os tweets pela hashtag até aqui. O ...
Como ler um arquivo baixado pelo selenium webdriver em python
Estou usando o selênio com webdriver em python para baixar um arquivo csv de um site. O arquivo é baixado no diretório de download especificado. Aqui está uma visão geral do meu código fp = webdriver.FirefoxProfile() ...
Raspagem na Web - como acessar o conteúdo renderizado em JavaScript via Angular.js?
Estou tentando raspar dados do site públicoasx.com.au [http://www.asx.com.au] A páginahttp://www.asx.com.au/asx/research/company.do#!/ACB/details [http://www.asx.com.au/asx/research/company.do#!/ACB/details]contém umdiv com a classe ...
Focar em resultados específicos enquanto raspa o Twitter com Python e Beautiful Soup 4?
Este é um acompanhamento do meu postUsando Python para raspar divs e extensões aninhadas no Twitter? [https://stackoverflow.com/questions/34912889/using-python-to-scrape-nested-divs-and-spans-in-twitter] . Não estou usando a API do Twitter, ...
R - Usando rvest para raspar um site protegido por senha sem efetuar login a cada iteração de loop
Estou tentando raspar dados de um site protegido por senha no R usando o pacote rvest. Atualmente, meu código efetua login no site a cada iteração de um loop que será executado cerca de 15.000 vezes. Isso parece muito ineficiente, mas ainda não ...
Alternativas ao Selenium / Webdriver para preencher campos ao raspar sem cabeça com Python?
Com Python 2.7 eu estou raspando comurllib2e quando algum Xpath é necessário, lxmltambém. Estávelozes, e como raramente preciso navegar pelos sites, essa combinação funciona bem. Na ocasião, geralmente, quando chego a uma página que exibe apenas ...
Como sucatear na Web uma página ASPX que requer autenticação
Usando a biblioteca do python 'Requests', estou tentando raspar na Web um site ASPX (https://cei.bmfbovespa.com.br/CEI_Responsivo/home.aspx [https://cei.bmfbovespa.com.br/CEI_Responsivo/home.aspx]) que requer um login primeiro ...
Melhorando o desempenho do crawler4j
Preciso escrever um webscraper que raspeie em torno de 1 milhão de sites e salve o título, a descrição e as palavras-chave em um arquivo grande (contendo o URL raspado e as palavras relacionadas). Os URLs devem ser extraídos de um ...
Raspagem facebook
Preciso obter rapidamente os nomes de cerca de 1000 usuários dos quais agora só tenho o ID do Facebook e os tokens de acesso. Ainda não estou confortável com a API do FB, por isso estava pensando em escrever um raspador para recuperar o nome da ...