Resultados da pesquisa a pedido "screen-scraping"

2 a resposta

Codificação de caracteres adequada para exibir “& acirc; & # 128; & # 157;”?

Estou tendo alguns problemas desagradáveis na codificação de caracteres que não consigo entende Essencialmente, eu estou tela raspando algum HTML de um site usando PHP, em seguida, executando-o através do DOMDocument do PHP para alterar algumas ...

8 a resposta

Raspagem de tela: expressões regulares ou expressões XQuery?

Eu estava respondendo a algumas perguntas do questionário para uma entrevista, e a pergunta era sobre como eu faria a raspagem de tela. Ou seja, escolhendo o conteúdo de uma página da web, supondo que você não tenha uma maneira ...

2 a resposta

Usando Ruby com o Mechanize para fazer login em um site

Preciso raspar dados de um site, mas é necessário primeiro fazer o login. Eu tenho usado o hpricot para raspar com sucesso outros sites, mas sou novo no mecanize e estou realmente desconcertado com a maneira de trabalha Vejo este exemplo ...

2 a resposta

HTML Parsing - Obter dados de uma tabela dentro de uma div?

Sou relativamente novo em toda a ideia de análise / raspagem de HTML. Eu esperava poder vir aqui para obter a ajuda de que preciso! Basicamente, o que estou procurando fazer (acho) é especificar o URL da página da qual desejo obter os dados. ...

2 a resposta

Usando Nokogiri para dividir conteúdo em tags BR

Tenho um trecho de código que estou tentando analisar com nokogiri que se parece com isso: <td class="j"> <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> <a title="title text2" href="http://link2.com">Link ...

1 a resposta

Manter cookies entre solicitações de mecanização

Estou tentando usar a versão Ruby do Mechanize para extrair os tickets do meu empregador de um sistema de gerenciamento de tickets do qual estamos nos afastando que não fornece uma API. O problema é que parece que o Mechanize não está mantendo ...

2 a resposta

Python urllib2.open Conexão redefinida por erro de ponto

Estou tentando raspar uma página usando python O problema é que eu continuo recebendo a conexão do Errno54 redefinida por pare O erro ocorre quando executo esse código ...

1 a resposta

como raspar isso com HTML simples DOM [fechado]

Estou tentando usar o dom html simples para extrair elementos de um arquivo que se parece com iss O arquivo tem várias tabelas com a mesma aparênciaclass=sometable. Cada tabela tem alguns<tr class=sometr>.Então dentro de cada tr, eu tenhoth que ...

1 a resposta

Como posso obter credenciais do IE para usar no meu código?

Atualmente, estou desenvolvendo um plugin do IE usando SpicIE [http://code.msdn.microsoft.com/SpicIE]. Este plug-in faz algumas raspagens na Web semelhantes ao exemplo postado no MSDN: WebRequest request = WebRequest.Create ...

4 a resposta

Salve todos os arquivos de imagem de um site

Estou criando um aplicativo pequeno para mim, onde executo um script Ruby e salvo todas as imagens do meu blog. Não consigo descobrir como salvar os arquivos de imagem depois de identificá-los. Qualquer ajuda seria muito apreciad require ...