Resultados da pesquisa a pedido "html-parsing"
Expressão regular para encontrar todos os atributos "src" da pasta "img" apenas do elemento HTML no PHP
Eu tenho uma string, dentro dela eu tenho uma imagem: "<img src="img/programacao/51.jpg" style="width:200px;" /><p>balbalba</p><img src="img/programacao/46.jpg" style="width:200px;" ...
Como obter o título da página da web usando o analisador html
Como posso obter o título de uma página da web para um determinado URL usando um analisador de HTML? É possível obter o título usando expressões regulares? Eu preferiria usar um analisador de HTML. Estou trabalhando no IDE Java Eclipse. Eu ...
Como posso usar a biblioteca python HTMLParser para extrair dados de uma tag div específica?
Estou tentando obter um valor de uma página HTML usando a biblioteca HTMLParser python. O valor que eu quero obter está dentro deste elemento html: ... <div id="remository">20</div> ...Esta é minha classe HTMLParser até agora: class ...
como imprimir células de uma tabela com simples html dom
Eu tenho esse código html. Estou usando o Simple HTML Dom para analisar os dados no meu próprio script php. <table> <tr> <td class="header">Name</td> <td class="header">City</td> </tr> <tr> <td class="text">Greg House</td> <td ...
À prova de balas SimpleXMLElement
Todo mundo sabe que sempre devemos usar técnicas DOM em vez de expressões regulares para extrair conteúdo do HTML, mas sinto que nunca posso confiar na extensão SimpleXML ou similar. Estou codificando uma implementação OpenID agora e tentei usar ...
PhotoSwipe: editar função de análise de análiseThumbnailElements para analisar o elemento de marcação adicional
Usando o PhotoSwipe, a marcação da galeria de miniaturas fica assim: <div class="wrap clearfix"> <div class="my-gallery" itemscope itemtype="http://schema.org/ImageGallery"> <ul class="gallery-grid"> <li> <figure itemprop="associatedMedia" ...
python UnicodeEncodeError> Como posso simplesmente remover caracteres unicode problemáticos?
Aqui está o que eu fiz .. >>> soup = BeautifulSoup (html) >>> soup Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 96953: ordinal not in ...
Maneira rápida e eficaz de analisar HTML quebrado?
Estou trabalhando em grandes projetos que exigem análise rápida de HTML, incluindo recuperação de páginas HTML quebradas. Atualmente, o lxml é a minha escolha, sei que também fornece uma interface para o modo de recuperação do libxml2, mas não ...
Como analisar uma string HTML no Script do Google Apps sem usar o XmlService?
Quero criar um raspador usando o Google Spreadsheets com o Google Apps Script. Eu sei que é possível e já vi alguns tutoriais e tópicos sobre isso. A idéia principal é usar: var html ...
Desativar tratamento de atributo "classe" especial
A história: Quando você analisa HTML comBeautifulSoup, class atributo é considerado um atributo com vários valores [http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class]e é tratado de uma maneira especial: Lembre-se de ...