Resultados da pesquisa a pedido "html-parsing"

2 a resposta

Expressão regular para encontrar todos os atributos "src" da pasta "img" apenas do elemento HTML no PHP

Eu tenho uma string, dentro dela eu tenho uma imagem: "<img src="img/programacao/51.jpg" style="width:200px;" /><p>balbalba</p><img src="img/programacao/46.jpg" style="width:200px;" ...

5 a resposta

Como obter o título da página da web usando o analisador html

Como posso obter o título de uma página da web para um determinado URL usando um analisador de HTML? É possível obter o título usando expressões regulares? Eu preferiria usar um analisador de HTML. Estou trabalhando no IDE Java Eclipse. Eu ...

4 a resposta

Como posso usar a biblioteca python HTMLParser para extrair dados de uma tag div específica?

Estou tentando obter um valor de uma página HTML usando a biblioteca HTMLParser python. O valor que eu quero obter está dentro deste elemento html: ... <div id="remository">20</div> ...Esta é minha classe HTMLParser até agora: class ...

3 a resposta

como imprimir células de uma tabela com simples html dom

Eu tenho esse código html. Estou usando o Simple HTML Dom para analisar os dados no meu próprio script php. <table> <tr> <td class="header">Name</td> <td class="header">City</td> </tr> <tr> <td class="text">Greg House</td> <td ...

2 a resposta

À prova de balas SimpleXMLElement

Todo mundo sabe que sempre devemos usar técnicas DOM em vez de expressões regulares para extrair conteúdo do HTML, mas sinto que nunca posso confiar na extensão SimpleXML ou similar. Estou codificando uma implementação OpenID agora e tentei usar ...

2 a resposta

PhotoSwipe: editar função de análise de análiseThumbnailElements para analisar o elemento de marcação adicional

Usando o PhotoSwipe, a marcação da galeria de miniaturas fica assim: <div class="wrap clearfix"> <div class="my-gallery" itemscope itemtype="http://schema.org/ImageGallery"> <ul class="gallery-grid"> <li> <figure itemprop="associatedMedia" ...

4 a resposta

python UnicodeEncodeError> Como posso simplesmente remover caracteres unicode problemáticos?

Aqui está o que eu fiz .. >>> soup = BeautifulSoup (html) >>> soup Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 96953: ordinal not in ...

1 a resposta

Maneira rápida e eficaz de analisar HTML quebrado?

Estou trabalhando em grandes projetos que exigem análise rápida de HTML, incluindo recuperação de páginas HTML quebradas. Atualmente, o lxml é a minha escolha, sei que também fornece uma interface para o modo de recuperação do libxml2, mas não ...

7 a resposta

Como analisar uma string HTML no Script do Google Apps sem usar o XmlService?

Quero criar um raspador usando o Google Spreadsheets com o Google Apps Script. Eu sei que é possível e já vi alguns tutoriais e tópicos sobre isso. A idéia principal é usar: var html ...

2 a resposta

Desativar tratamento de atributo "classe" especial

A história: Quando você analisa HTML comBeautifulSoup, class atributo é considerado um atributo com vários valores [http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class]e é tratado de uma maneira especial: Lembre-se de ...