Resultados da pesquisa a pedido "screen-scraping"

1 a resposta

Selecione todos os <p> 's dos filhos de um Nó usando HTMLAgilityPack

Eu tenho o seguinte código que estou usando para obter uma página html. Torne os URLs absolutos e faça com que os links sejam seguidos e abertos em uma nova janela / guia. Meu problema é em torno da adição dos atributos ao<a>s. string url = ...

5 a resposta

raspar html gerado por javascript com python

Eu preciso raspar um site com python. Eu obtenho o código html de origem com o módulo urlib, mas preciso raspar também algum código html gerado por uma função javascript (que está incluída na fonte html). O que essa função faz "no" site é que, ...

7 a resposta

Navegação na Web em C # - Bibliotecas, ferramentas etc. - Alguma coisa como mecanizar em Perl? [fechadas]

Procurando algo semelhante ao Mechanize for .NET ... Se você não sabe o que é mecanizar ..http://search.cpan.org/dist/WWW-Mechanize/ [http://search.cpan.org/dist/WWW-Mechanize/] Vou manter uma lista de sugestões aqui. Qualquer coisa para ...

2 a resposta

Análise intensiva da CPU com scrapy

A seção CONCURRENT_ITEMS em http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-items [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-items]define como: Número máximo de itens simultâneos (por resposta) a serem ...

4 a resposta

Incorporando parte de um site

Suponha que eu queira incorporar a mais recente história em quadrinhos de um dos meus quadrinhos favoritos da web no meu site como uma espécie de promoção para ele. O webcomic tem a faixa dentro de uma div com um ID, então achei que ...

1 a resposta

Por que essa operação HtmlAgilityPack é inválida quando há, de fato, elementos correspondentes?

Recebo "InvalidOperationException> Message = Sequence não contém nenhum elemento correspondente" com o seguinte código: private void buttonLoadHTML_Click(object sender, EventArgs e) { GetParagraphsListFromHtml(@"C:\PlatypiRUs\fitt.html"); } // ...

7 a resposta

Raspagem de tela com Python

O Python possui bibliotecas de captura de tela que oferecem suporte a JavaScript? Eu tenho usadopycurlpara solicitações HTML simples e JavaHtmlUnitpara solicitações mais complicadas que exigem suporte a JavaScript. Idealmente, eu gostaria de ...

4 a resposta

Por que a decodificação python está substituindo mais do que os bytes inválidos de uma sequência codificada?

Tentar decodificar uma página utf-8 html codificada inválida fornece resultados diferentes em python, firefox e chrome. O fragmento codificado inválido da página de teste se parece com'PREFIX\xe3\xabSUFFIX' >>> fragment = 'PREFIX\xe3\xabSUFFIX' ...

7 a resposta

Caracteres Nokogiri, uri aberto e Unicode

Estou usando Nokogiri e open-uri para capturar o conteúdo da tag title em uma página da web, mas estou tendo problemas com caracteres acentuados. Qual é a melhor maneira de lidar com isso? Aqui está o que estou fazendo: require 'open-uri' ...

1 a resposta

Raspando os resultados da página inicial do Google com php

eu posso com o código php Raspando título e URL dos resultados de pesquisa do Google agora como obter descrições $url = 'http://www.google.com/search?hl=en&safe=active&tbo=d&site=&source=hp&q=Beautiful+Bangladesh&oq=Beautiful+Bangladesh'; $html ...