Resultados da pesquisa a pedido "beautifulsoup"

1 a resposta

localizando o token CSRF dentro de uma página html usando Beautifulsoup

O HTML se parece com isso <input type="hidden" name="csrfToken" value="ajax:SOME_TOKEN"/>Eu tentei isso de algumas maneiras diferentes, mas continuo recebendo um erro. Eu pensei que este caminho parecia certo, mas aparentemente não. soup = ...

4 a resposta

Ubuntu - Como instalar um módulo Python (BeautifulSoup) no Python 3.3 em vez do Python 2.7?

Eu tenho este código (como está escrito na documentação do BS4): from bs4 import BeautifulSoupQuando executo o script (usando python3), recebo o erro: ImportError: No module named 'bs4'BeatifulSoup assim instalado por: sudo pip install ...

5 a resposta

UnicodeEncodeError: o codec 'charmap' não pode codificar caracteres

Estou tentando raspar um site, mas isso gera um erro. Estou usando o seguinte código: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) ...

2 a resposta

BeautifulSoup, mas para CSS?

BeautifulSoup analisa HTML e oferece várias maneiras de manipular e pesquisar dentro de HTML. Existe algo semelhante para CSS? Especificamente, eu gostaria de saber se um determinado texto HTML é renderizado comonegrito. Ou ele tem um ancestral ...

1 a resposta

BeautifulSoup contando tags sem analisar profundamente dentro deles

Eu pensei sobre o seguinteenquanto escrevia uma resposta para esta pergunta [https://stackoverflow.com/questions/27673349/python-xml-parsing-algorithm-speed/27673558#27673558] . Suponha que eu tenha um profundo aninhadoxml arquivo como este (mas ...

1 a resposta

BeautifulSoup ordem de ocorrência de Tags

Considere a seguinte situação: tag1 = soup.find(**data_attrs) tag2 = soup.find(**delim_attrs)Existe uma maneira de descobrir qual tag ocorreu "primeiro" na página? Esclarecimentos: Para meus propósitos, a ordem é a mesma do método findNext da ...

1 a resposta

Como extrair links html com uma palavra correspondente de um site usando python

Eu tenho um url, digamoshttp://www.bbc.com/news/world/asia/. Apenas nesta página, eu queria extrair todos os links que contêm Índia, Índia ou Índia (não diferenciam maiúsculas de minúsculas). Se eu clicar em qualquer um dos links de saída, ele ...

1 a resposta

Python - Solicitações / RoboBrowser - ASPX POST JavaScript

Estou portando um script bash que usa curl e POSTs as cargas úteis no código para os URLs e funciona. A questão básica é que, com o robobrowser, estou tendo problemas para postar usando os formulários da página. Percorrendo o site: Entre no ...

1 a resposta

Rastreador da Web para extrair dos elementos da lista

Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...

1 a resposta

Como obter o valor de texto interno de uma tag HTML com BeautifulSoup bs4?

Ao usar o BeautifulSoup bs4, como obter texto de dentro de uma tag HTML? Quando corro esta linha: oname = soup.find("title")Eu recebo otitle tag assim: <title>page name</title>e agora eu quero apenas o texto interno,page name, sem tags. Como ...