Resultados da pesquisa a pedido "web-scraping"

3 a resposta

Raspando uma página da Web com C # e HTMLAgility

Li que o HTMLAgility 1.4 é uma ótima solução para raspar uma página da web. Sendo um novo programador, espero poder obter alguma contribuição sobre este projeto. Estou fazendo isso como um formulário de inscrição em c #. A página com a qual ...

1 a resposta

php - maneira mais rápida de verificar a presença de texto em vários domínios (acima de 1000)

Eu tenho um script php em execução e usando cURL para recuperar o conteúdo de páginas da web em que eu gostaria de verificar a presença de algum texto.Agora ...

1 a resposta

Registros do Portia Spider mostrando ['Parcial'] durante o rastreamento

Eu criei uma aranha usandoPortiaraspador da web e o URL de início é https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs Ao programar esta aranha emscrapydestou obtendo DEBUG: Crawled (200) ...

1 a resposta

Pacote de agilidade de HTML: nó de comentário de localização

Estou raspando um site que usa Javascript para preencher dinamicamente o conteúdo de um site com o pacote Agility Html. Basicamente, eu estava procurando pelo XPATH"\\div[@class='PricingInfo']", mas esse nó div estava sendo gravado no DOM via ...

3 a resposta

Como faço para limpar objetos no Excel vba?

Public Sub D_Galoplar() Application.ScreenUpdating = False Dim Asay(1 To 250) Dim Jsay(1 To 100) For q = 2 To Sheets("Y").Columns("A:A").Find(What:="boş").Row - 1 Asay(q - 1) = Sheets("Y").Range("A" & q) Next q For q = 2 ...

1 a resposta

Renomear selênio de arquivos baixados

Estou usando o selênio para baixar automaticamente arquivos no formato csv nesta página: https://catalog.data.gov/dataset?tags=crime [https://catalog.data.gov/dataset?tags=crime] Este é o código que estou usando: profile = ...

1 a resposta

Captura de tela do Android com um navegador sem cabeçalho

Passei um dia pesquisando uma biblioteca que pode ser usada para realizar o seguinte:Recupere o conteúdo completo de uma página da Web como em segundo plano ...

1 a resposta

Não é possível localizar os dados exibidos no código-fonte ao Raspar com Raspar

Estou usando o Python.org versão 2.7 de 64 bits no Windows Vista de 64 bits. Estou usando uma combinação de Scrapy e regex para extrair informações de um item Javascript chamado 'DataStore.Prime' na seguinte ...

3 a resposta

É possível que o Scrapy obtenha texto sem formatação diretamente dos dados brutos em html, em vez de usar os seletores xPat

Por exemplo scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content então, eu tenho os seguintes códigos html brutos: <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> ...

3 a resposta

Como ler um arquivo baixado pelo selenium webdriver em python

Estou usando o selênio com webdriver em python para baixar um arquivo csv de um site. O arquivo é baixado no diretório de download especificado. Aqui está uma visão geral do meu código fp = webdriver.FirefoxProfile() ...