Resultados da pesquisa a pedido "beautifulsoup"
localizando o token CSRF dentro de uma página html usando Beautifulsoup
O HTML se parece com isso <input type="hidden" name="csrfToken" value="ajax:SOME_TOKEN"/>Eu tentei isso de algumas maneiras diferentes, mas continuo recebendo um erro. Eu pensei que este caminho parecia certo, mas aparentemente não. soup = ...
Ubuntu - Como instalar um módulo Python (BeautifulSoup) no Python 3.3 em vez do Python 2.7?
Eu tenho este código (como está escrito na documentação do BS4): from bs4 import BeautifulSoupQuando executo o script (usando python3), recebo o erro: ImportError: No module named 'bs4'BeatifulSoup assim instalado por: sudo pip install ...
UnicodeEncodeError: o codec 'charmap' não pode codificar caracteres
Estou tentando raspar um site, mas isso gera um erro. Estou usando o seguinte código: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) ...
BeautifulSoup, mas para CSS?
BeautifulSoup analisa HTML e oferece várias maneiras de manipular e pesquisar dentro de HTML. Existe algo semelhante para CSS? Especificamente, eu gostaria de saber se um determinado texto HTML é renderizado comonegrito. Ou ele tem um ancestral ...
BeautifulSoup contando tags sem analisar profundamente dentro deles
Eu pensei sobre o seguinteenquanto escrevia uma resposta para esta pergunta [https://stackoverflow.com/questions/27673349/python-xml-parsing-algorithm-speed/27673558#27673558] . Suponha que eu tenha um profundo aninhadoxml arquivo como este (mas ...
BeautifulSoup ordem de ocorrência de Tags
Considere a seguinte situação: tag1 = soup.find(**data_attrs) tag2 = soup.find(**delim_attrs)Existe uma maneira de descobrir qual tag ocorreu "primeiro" na página? Esclarecimentos: Para meus propósitos, a ordem é a mesma do método findNext da ...
Como extrair links html com uma palavra correspondente de um site usando python
Eu tenho um url, digamoshttp://www.bbc.com/news/world/asia/. Apenas nesta página, eu queria extrair todos os links que contêm Índia, Índia ou Índia (não diferenciam maiúsculas de minúsculas). Se eu clicar em qualquer um dos links de saída, ele ...
Python - Solicitações / RoboBrowser - ASPX POST JavaScript
Estou portando um script bash que usa curl e POSTs as cargas úteis no código para os URLs e funciona. A questão básica é que, com o robobrowser, estou tendo problemas para postar usando os formulários da página. Percorrendo o site: Entre no ...
Rastreador da Web para extrair dos elementos da lista
Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...
Como obter o valor de texto interno de uma tag HTML com BeautifulSoup bs4?
Ao usar o BeautifulSoup bs4, como obter texto de dentro de uma tag HTML? Quando corro esta linha: oname = soup.find("title")Eu recebo otitle tag assim: <title>page name</title>e agora eu quero apenas o texto interno,page name, sem tags. Como ...