Resultados da pesquisa a pedido "web-scraping"

1 a resposta

Analisar o código html para uma página da web inteira rolada para baixo

from bs4 import BeautifulSoup import urllib,sys reload(sys) sys.setdefaultencoding("utf-8") r = urllib.urlopen('https://twitter.com/ndtv').read() soup = BeautifulSoup(r)Isso me daria não toda a página da web rolada no final que eu quero, mas ...

2 a resposta

Como obter o conteúdo entre uma tag e terminar em HTML usando a bela sopa de python?

Eu tenho uma linha HTML da seguinte maneira: <span class="cd__headline-text">Is this model too thin for Yves Saint Laurent? </span>Gostaria de extrair o título, ou seja, "Este modelo é muito fino para Yves Saint Laurent?" desta linha HTML. Como ...

3 a resposta

Scrapy fornece URLError: <erro de urlopen expirado>

Então, eu tenho um programa que estou tentando decolar, mas não consigo executar meu código, ele sempre sai com o erro abaixo. Ainda posso visitar o site usando oscrapy shell comando, então eu sei que os URLs e outras coisas funcionam. Aqui ...

3 a resposta

Como loop dados de raspagem para várias páginas em um site usando python e beautifulsoup4

Estou tentando extrair dados do site PGA.com para obter uma tabela de todos os campos de golfe nos Estados Unidos. Na minha tabela CSV, quero incluir o nome do campo de golfe, endereço, propriedade, site e número de telefone. Com esses dados, ...

1 a resposta

Como raspar uma URL SSL ou HTTPS

Eu escrevi uma função para raspar um site usando CURL, mas ele não retorna nada quando chamado e não consegue entender o porquê. A saída está vazia <?php function scrape($url) { $headers = Array( ...

1 a resposta

Multiprocessamento de aranhas riscadas em processos paralelos

Existem várias perguntas semelhantes que eu já li no Stack Overflow. Infelizmente, perdi links de todos eles, porque meu histórico de navegação foi excluído inesperadamente. Todas as perguntas acima não puderam me ajudar. Alguns deles usaram ...

1 a resposta

A exibição Scrapy retorna uma página em branco

Eu sou novo no Scrapy e estava apenas tentando raspar http://www.diseasesdatabase.com/ [http://www.diseasesdatabase.com/] Quando digitoscrapy view http://www.diseasesdatabase.com/, ele exibe uma página em branco, mas se eu fizer o download da ...

2 a resposta

Qual é o meu agente de usuário quando analiso site com o pacote rvest no R?

Como é fácil no R, estou usandorvest [https://github.com/hadley/rvest]pacote para analisar HTML para extrair informações do site. Gostaria de saber qual é o meu User-Agent (se houver algum) durante a solicitação, já que o User-Agent está ...

1 a resposta

Python e sqlite3 lançando um erro: sqlite3.OperationalError: near “s”: erro de sintaxe

Estou tentando usar Python e BeautifulSoup para extrair algumas informações da web, iterar através dele e depois inserir algumas peças em um banco de dados sqlite3. Mas continuo com esse erro: Arquivo "/Users/Chris/Desktop/BS4/TBTfile.py", linha ...

4 a resposta

Raspagem do lado do cliente baseada no navegador

Gostaria de saber se é possível raspar uma página externa (entre domínios) através do IP do usuário? Para um site de comparação de compras, preciso raspar as páginas de um site de e-com, mas várias solicitações do servidor serão banidas, por ...