Resultados da pesquisa a pedido "html-parsing"
Purificador de HTML: Removendo um elemento condicionalmente com base em seus atributos
Conformeo smoketest do purificador de HTML [http://htmlpurifier.org/live/smoketests/xssAttacks.php], URIs 'malformados' são ocasionalmente descartados para deixar para trás uma marca de âncora sem atributo, por ex. <a ...
Como extrair links html com uma palavra correspondente de um site usando python
Eu tenho um url, digamoshttp://www.bbc.com/news/world/asia/. Apenas nesta página, eu queria extrair todos os links que contêm Índia, Índia ou Índia (não diferenciam maiúsculas de minúsculas). Se eu clicar em qualquer um dos links de saída, ele ...
C #: HtmlAgilityPack extrai texto interno
Estou usando o HtmlAgilityPack. Existe um código de linha que eu possa obter todo o texto interno do html, por exemplo, remover todas as tags e scripts html?
O JSOUP não baixa o html completo se a página da Web for grande em tamanho. Alguma alternativa para isso ou quaisquer soluções alternativas?
Eu estava tentando obter a página HTML e analisar as informações. Acabei de descobrir que algumas páginas não foram completamente baixadas usandoJsoup. Eu verifiquei comcurl comando na linha de comando, a página completa foi ...
TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs [fechado]
A abundância de analisadores de HTML para escolher (e ficar com) é incompreensível: http://java-source.net/open-source/html-parsers [http://java-source.net/open-source/html-parsers] Como escolho um que melhor atenda aos seguintes ...
Recuperando todos os links de todas as páginas do resultado de pesquisa do Google usando JSoup
Eu tenho o seguinte código para analisar HTML em java usando JSoup. Document linksDoc = null; linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get(); Elements titles = linksDoc.select("h3.r > a"); ...
Opções para raspagem de HTML? [fechadas]
Estou pensando em tentarSopa bonita [http://en.wikipedia.org/wiki/Beautiful_Soup], um pacote Python para raspagem de HTML. Existem outros pacotes de raspagem de HTML que eu deveria estar olhando? Python não é um requisito, estou realmente ...
Jsoup: Extraindo texto interno da marca âncora
Aqui está o meu problema. Eu tenho um conteúdo html: innerText Eu preciso extrair o "innerText". Ao tentar isso no Jsoup, descobri que o texto interno sai da tag anchor quando analisado pelo Jsoup. Aqui está o meu código Document ...
Importando o bs4 no Python 3.5
Eu instalei o Python 3.5 e o Beautifulsoup4. Quando tento importar o bs4, recebo o erro abaixo. Existe alguma correção para isso? Ou devo apenas instalar o Python 3.4? Por favor, seja muito explícito - eu sou novo em programação. ...
raspando uma resposta de uma opção selecionada na lista suspensa
Este é um exemplo de página que lista as estatísticas de beisebol de um jogador selecionado, por padrão no ano mais recente (2014, em breve em ...