Resultados da pesquisa a pedido "screen-scraping"
BeautifulSoup: Como extraio todos os <li> s de uma lista de <ul> s que contém alguns <ul> s aninhados?
Meu código fonte se parece com: <h3>Header3 (Start here)</h3> <ul> <li>List items</li> <li>Etc...</li> </ul> <h3>Header 3</h3> <ul> <li>List items</li> <ul> <li>Nested list items</li> <li>Nested list items</li></ul> <li>List items</li> </ul> ...
Não foi possível carregar a página ASP.NET usando o Python urllib2
Estou tentando fazer uma solicitação POST parahttps: //www.paoilandgasreporting.state.pa.us/publicreports/Modules/WellDetails/WellDetails.asp [https://www.paoilandgasreporting.state.pa.us/publicreports/Modules/WellDetails/WellDetails.aspx] para ...
Conte o número de resultados para uma palavra específica no Twitter
Para promover um projeto pessoal meu, tenho pensado em como contar o número de resultados de uma palavra especificada pelo usuário emTwitte [http://www.twitter.com]. Eu usei sua API extensivamente, mas não consegui encontrar uma maneira eficiente ...
Codificação de caracteres adequada para exibir “& acirc; & # 128; & # 157;”?
Estou tendo alguns problemas desagradáveis na codificação de caracteres que não consigo entende Essencialmente, eu estou tela raspando algum HTML de um site usando PHP, em seguida, executando-o através do DOMDocument do PHP para alterar algumas ...
Usando Ruby com o Mechanize para fazer login em um site
Preciso raspar dados de um site, mas é necessário primeiro fazer o login. Eu tenho usado o hpricot para raspar com sucesso outros sites, mas sou novo no mecanize e estou realmente desconcertado com a maneira de trabalha Vejo este exemplo ...
HTML Parsing - Obter dados de uma tabela dentro de uma div?
Sou relativamente novo em toda a ideia de análise / raspagem de HTML. Eu esperava poder vir aqui para obter a ajuda de que preciso! Basicamente, o que estou procurando fazer (acho) é especificar o URL da página da qual desejo obter os dados. ...
Usando Nokogiri para dividir conteúdo em tags BR
Tenho um trecho de código que estou tentando analisar com nokogiri que se parece com isso: <td class="j"> <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> <a title="title text2" href="http://link2.com">Link ...
Python urllib2.open Conexão redefinida por erro de ponto
Estou tentando raspar uma página usando python O problema é que eu continuo recebendo a conexão do Errno54 redefinida por pare O erro ocorre quando executo esse código ...
web scraping para preencher (e recuperar) formulários de pesquisa?
Eu queria saber se é possível "automatizar" a tarefa de digitar entradas para pesquisar formulários e extrair correspondências dos resultados. Por ...