Resultados da pesquisa a pedido "web-scraping"

2 a resposta

Como raspar tabelas HTML de uma lista de links

Estou tentando raspar algumas tabelas (dados de eleição) usando o pacote XML. Navegando em SO, descobri como raspar um único URL usando: library(XML) url <- "http://www.elecciones2011.gob.ar/paginas/paginas/dat99/DPR99999A.htm" total ...

12 a resposta

Página JavaScript de raspagem da Web com Python

Estou tentando desenvolver um raspador de web simples. Quero extrair texto sem o código HTML. Na verdade, alcancei esse objetivo, mas vi que, em algumas páginas em que o JavaScript é carregado, não obtive bons resultado Por exemplo, se algum ...

3 a resposta

olicitação do @Module como recuperar corretamente caracteres acentuados?

Estou a usar:Module: Request - Método de solicitação HTTP simplificado [https://github.com/mikeal/request] para raspar uma página da Web com caracteres acentuadosá é ó ú ê ã etc. Eu já tenteiencoding: utf-8 sem sucesso. Ainda estou recebendo ...

3 a resposta

Envie dados via formulário da Web e extraia os resultados

Meu nível python é Iniciante. Eu nunca escrevi um raspador ou rastreador da Web. Eu escrevi um código python para conectar-se a uma API e extrair os dados que eu quero. Mas, para alguns dados extraídos, quero obter o sexo do autor. Encontrei ...

5 a resposta

php: Obtenha texto sem formatação a partir de html - simplehtmldom ou php strip_tag

Estou procurando obter o texto sem formatação do html. Qual devo escolher, php strip_tags [http://php.net/manual/en/function.strip-tags.php] ou simplehtmldom [http://simplehtmldom.sourceforge.net/] extração de texto simples? Um profissional ...

4 a resposta

como mesclar os resultados da página de destino para a página atual em scrapy?

Precisa de exemplo detalhado sobre como obter um link de uma página, siga este link, obtenha mais informações da página vinculada e volte a juntar alguns dados da primeira página ... obrigad

1 a resposta

xiste uma maneira melhor de executar esta tarefa de raspagem XML em

Eu tenho um XML que se parece com: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd"> <plist version="1.0"> <array> <dict> ...

2 a resposta

Simple Html DOM Caching

Estou usando o Simple HTML DOM para raspar (com permissão) alguns sites. Basicamente, raspei cerca de 50 sites diferentes com dados estatísticos que são atualizados cerca de quatro vezes ao dia. Como você pode imaginar, leva algum tempo para ...

1 a resposta

Erros relacionados ao Web Crawler em PHP

Estou tentando criar um rastreador da web simples usando PHP capaz de rastrear domínios .edu, desde que os URLs de origem do pa Eu usei dom html simples para implementar o rastreador, enquanto parte da lógica principal é implementada por mi ...

5 a resposta

Clique no pop-up javascript através do webdriver

Estou raspando uma página da Web usando o Selenium em Python A página da Web em que estou trabalhando tem um formulário. Consigo preencher o formulário e clico no botão Enviar. Gera uma janela pop-up (alerta Javascript). Não tenho certeza, ...