Resultados da pesquisa a pedido "web-scraping"

4 a resposta

Raspagem de vários links com PyQt / QtWebkit

Estou tentando raspar um site grande de registros do governo que exija um método de "bola de neve", ou seja, iniciando na página de pesquisa principal e depois seguindo cada link que o raspador encontra na página seguint Consegui carregar a ...

1 a resposta

Navegando / raspando links de hashbang com javascript (phantomjs)

Estou tentando fazer o download do HTML de um site que é quase inteiramente gerado por JavaScript. Então, preciso simular o acesso ao navegador e brincar com PhantomJS [http://code.google.com/p/phantomjs/]. O problema é que o site usa URLs ...

7 a resposta

Raspagem da Web em uma extensão do Google Chrome (JavaScript + APIs do Chrome)

Quais são as melhores opções para executar Raspagem da Web de uma guia não aberta no momento em uma Extensão do Google Chrome com JavaScript e outras tecnologias disponíveis.ambém são aceitas outras bibliotecas JavaScrip O importante é mascarar ...

3 a resposta

Scrapy, tag hash nos URLs

Estou no meio de um projeto de demolição usando o Scrap Eu percebi que o Scrapy retira o URL de uma tag hash até o fina Aqui está a saída do shell: [s] request ...

3 a resposta

Clique em um botão no Scrapy

Estou usando o Scrapy para rastrear uma página da web. Algumas das informações necessárias apenas aparecem quando você clica em um determinado botão (é claro que também aparece no código HTML depois de clicar). Eu descobri que o Scrapy pode ...

2 a resposta

como analisar o conteúdo de um arquivo html usando CURL? [fechadas

Eu quero analisar um conteúdo XHTML usando CURL. Como sucata número da transação, peso, altura, largura entre<table> Tag. Como sucata apenas o conteúdo deste documento HTML e obtenha-o como array usando CURL? transactions.php <table border=0 ...

3 a resposta

ookies @Jsoup para raspagem HTTPS

Estou experimentando este site para reunir meu nome de usuário na página de boas-vindas para aprender Jsoup e Android. Usando o seguinte código Connection.Response res ...

8 a resposta

Como conectar-se via HTTPS usando Jsoup?

Está funcionando bem sobre HTTP, mas quando tento usar uma fonte HTTPS, gera a seguinte exceção: 10-12 13:22:11.169: WARN/System.err(332): javax.net.ssl.SSLHandshakeException: java.security.cert.CertPathValidatorException: Trust anchor for ...

2 a resposta

Como raspar várias páginas com XML e ReadHTMLTable?

Estou usando o pacote XML para transformar os resultados da maratona de Chicago em um CSV. O problema é que o site pode exibir apenas 1.000 corredores em uma única página, então eu tenho que raspar várias páginas. O script que escrevi até agora ...

8 a resposta

Selenium - Python - valor da opção do menu suspenso

Preciso selecionar um elemento em um menu suspens Por exemplo, abra isto: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> ...