Resultados da pesquisa a pedido "web-scraping"

2 a resposta

Raspagem dinâmica de dados na Web com Python, BeautifulSoup

Estou tentando extrair esses dados (número) para muitas páginas do HTML. Os dados são diferentes para cada página. Quando tento usar o soup.select ('span [class = "pull-right"]'), ele deve me fornecer o número, mas somente a tag vem. Eu acredito ...

1 a resposta

R: rvest - não é UTF-8 adequado, indica codificação?

Estou experimentando o "novo" pacote Rvest de Hadley Wickham. Eu usei no passado, então eu esperava que tudo corra bem. No entanto, continuo vendo este erro: > TV_Audio_Video_Marca <- read_html(page_source[[1]], encoding = "ISO-8859-1") Error: ...

0 a resposta

Programa para automatizar a entrada no campo de formulário e a verificação de resultados da página da web

Eu estou tentando criar um programa em c # (talvez usando WinForms) que insira um número de licença em um campo de formulário de um específicolocal na ...

2 a resposta

Como raspar esta página da Web com Python e lxml? lista vazia retornada

Para fins educacionais, estou tentando rasparesta página [http://www.rottentomatoes.com/browse/dvd-top-rentals/]gradualmente comPython e lxml [http://docs.python-guide.org/en/latest/scenarios/scrape/], começando com nomes de filmes. Pelo que li ...

1 a resposta

Não é possível obter a paginação anterior com solicitações

Sinopse: Dada uma resposta da Web a uma sequência de consultas enviadas por 'selênio', não consigo receber 'solicitações' para obter os hrefs, nem posso passar pela paginação (que exibe apenas os primeiros 20 artigos) para eliminar milhares de ...

1 a resposta

Como automatizar a caixa de diálogo Salvar como no IE11 usando o VBA?

Estou tentando baixar alguns dados sobre emissões de carbono. Posso pré-carregar a página com as configurações relevantes através do URL. Ele carrega bem e eu posso clicar no botão OK pelo seu ID e então recebo o IE11 - Abrir / Salvar / Cancelar ...

1 a resposta

Registros do Portia Spider mostrando ['Parcial'] durante o rastreamento

Eu criei uma aranha usandoPortiaraspador da web e o URL de início é https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs Ao programar esta aranha emscrapydestou obtendo DEBUG: Crawled (200) ...

3 a resposta

Como imprimir os atributos href usando beautifulsoup enquanto automatiza através do selênio?

[/imgs/2vEuN.jpg] O valor href do elemento azul é o que eu quero acessar deste HTML Tentei algumas maneiras de imprimir o link, mas não funcionou. Meu código abaixo: - discover_page = BeautifulSoup(r.text, 'html.parser') finding_accounts ...

2 a resposta

Raspar vários URLs fazendo loop no PhantomJS

Estou usando o PhantomJS para raspar alguns sites e, portanto, extrair informações com r. Eu estou seguindoesta [http://blog.datacamp.com/scraping-javascript-generated-data-with-r/]tutorial. Tudo funciona bem para uma única página, mas não ...

1 a resposta

Como reagendar 403 códigos de status HTTP para serem rastreados posteriormente no scrapy?

Conformeestes [http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.retry] instruções Posso ver que os erros HTTP 500, os erros de conexão perdidos etc. são sempre reagendados, mas não consigo ...