Resultados da pesquisa a pedido "screen-scraping"
Codificação de caracteres adequada para exibir “& acirc; & # 128; & # 157;”?
Estou tendo alguns problemas desagradáveis na codificação de caracteres que não consigo entende Essencialmente, eu estou tela raspando algum HTML de um site usando PHP, em seguida, executando-o através do DOMDocument do PHP para alterar algumas ...
Raspagem de tela: expressões regulares ou expressões XQuery?
Eu estava respondendo a algumas perguntas do questionário para uma entrevista, e a pergunta era sobre como eu faria a raspagem de tela. Ou seja, escolhendo o conteúdo de uma página da web, supondo que você não tenha uma maneira ...
Usando Ruby com o Mechanize para fazer login em um site
Preciso raspar dados de um site, mas é necessário primeiro fazer o login. Eu tenho usado o hpricot para raspar com sucesso outros sites, mas sou novo no mecanize e estou realmente desconcertado com a maneira de trabalha Vejo este exemplo ...
HTML Parsing - Obter dados de uma tabela dentro de uma div?
Sou relativamente novo em toda a ideia de análise / raspagem de HTML. Eu esperava poder vir aqui para obter a ajuda de que preciso! Basicamente, o que estou procurando fazer (acho) é especificar o URL da página da qual desejo obter os dados. ...
Usando Nokogiri para dividir conteúdo em tags BR
Tenho um trecho de código que estou tentando analisar com nokogiri que se parece com isso: <td class="j"> <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> <a title="title text2" href="http://link2.com">Link ...
Manter cookies entre solicitações de mecanização
Estou tentando usar a versão Ruby do Mechanize para extrair os tickets do meu empregador de um sistema de gerenciamento de tickets do qual estamos nos afastando que não fornece uma API. O problema é que parece que o Mechanize não está mantendo ...
Python urllib2.open Conexão redefinida por erro de ponto
Estou tentando raspar uma página usando python O problema é que eu continuo recebendo a conexão do Errno54 redefinida por pare O erro ocorre quando executo esse código ...
como raspar isso com HTML simples DOM [fechado]
Estou tentando usar o dom html simples para extrair elementos de um arquivo que se parece com iss O arquivo tem várias tabelas com a mesma aparênciaclass=sometable. Cada tabela tem alguns<tr class=sometr>.Então dentro de cada tr, eu tenhoth que ...
Como posso obter credenciais do IE para usar no meu código?
Atualmente, estou desenvolvendo um plugin do IE usando SpicIE [http://code.msdn.microsoft.com/SpicIE]. Este plug-in faz algumas raspagens na Web semelhantes ao exemplo postado no MSDN: WebRequest request = WebRequest.Create ...
Salve todos os arquivos de imagem de um site
Estou criando um aplicativo pequeno para mim, onde executo um script Ruby e salvo todas as imagens do meu blog. Não consigo descobrir como salvar os arquivos de imagem depois de identificá-los. Qualquer ajuda seria muito apreciad require ...