Resultados da pesquisa a pedido "html-parsing"
como analisar o conteúdo de um arquivo html usando CURL? [fechadas
Eu quero analisar um conteúdo XHTML usando CURL. Como sucata número da transação, peso, altura, largura entre<table> Tag. Como sucata apenas o conteúdo deste documento HTML e obtenha-o como array usando CURL? transactions.php <table border=0 ...
Como extrair dados da tabela html no shell script?
Estou tentando criar um script BASH que extrairia os dados da tabela HTML. Abaixo está o exemplo da tabela de onde eu preciso extrair dados: <table border=1> <tr> <td><b>Component</b></td> <td><b>Status</b></td> <td><b>Time / Error</b></td> ...
Como converter um documento criado no Jsoup (o analisador html Java) em uma string
Tenho um documento que foi feito no jsoup com esta aparência Document doc = Jsoup.connect("http://en.wikipedia.org/").get();Como faço para converter essedoc em uma string.
Sintaxe de regex de ordem variável
Existe uma maneira de indicar que duas ou mais frases regex podem ocorrer em qualquer ordem? Por exemplo, os atributos XML podem ser gravados em qualquer ordem. Digamos que eu tenha o seguinte XML: <a href="home.php" class="link" ...
Regex selecione todo o texto entre as tags
Qual é a melhor maneira de selecionar todo o texto entre duas tags - ex: o texto entre todas as tags 'pré' na págin
Parar HTML em Python [fechado]
Qual é a minha melhor aposta para analisar HTML se não posso usar o BeautifulSoup ou o lxml? Eu tenho um código que usa SGMLlib, mas é um pouco de baixo nível e agora está obsolet Eu preferiria que pudesse conter um pouco de HTML malformado, ...
Como incorporar JSON com segurança </script> no documento HTML?
Em um aplicativo Rails 3.1, como posso incorporar com segurança alguns dados JSON em um documento HTM Suponha que eu tenho isso em uma ação do controlador: @tags = [ {name:"tag1", color:"green"}, {name:"</script><b>I can do something bad ...
Como analiso uma página HTML com Node.js
Preciso analisar (no servidor) grandes quantidades de páginas HTM odos concordamos que o regexp não é o caminho a segui Parece-me que o javascript é a maneira nativa de analisar uma página HTML, mas essa suposição depende do código do servidor ...
Android HTML ImageGetter como AsyncTask
Ok, estou perdendo a cabeça por causa disso. Eu tenho um método no meu programa que analisa HTML. Quero incluir as imagens embutidas e tenho a impressão de que o uso do Html.fromHtml (string, Html.ImageGetter, Html.TagHandler) permitirá que isso ...
remover determinados atributos das tags HTML
Como posso remover certos atributos, como identificação, estilo, classe etc. do código HTM Eu pensei que poderia usar o lxml.html.clean module [http://lxml.de/lxmlhtml.html#cleaning-up-html], mas, como se vê, só posso remover atributos de estilo ...