Resultados da pesquisa a pedido "html-parsing"

3 a resposta

Purificador de HTML: Removendo um elemento condicionalmente com base em seus atributos

Conformeo smoketest do purificador de HTML [http://htmlpurifier.org/live/smoketests/xssAttacks.php], URIs 'malformados' são ocasionalmente descartados para deixar para trás uma marca de âncora sem atributo, por ex. <a ...

1 a resposta

Como extrair links html com uma palavra correspondente de um site usando python

Eu tenho um url, digamoshttp://www.bbc.com/news/world/asia/. Apenas nesta página, eu queria extrair todos os links que contêm Índia, Índia ou Índia (não diferenciam maiúsculas de minúsculas). Se eu clicar em qualquer um dos links de saída, ele ...

2 a resposta

C #: HtmlAgilityPack extrai texto interno

Estou usando o HtmlAgilityPack. Existe um código de linha que eu possa obter todo o texto interno do html, por exemplo, remover todas as tags e scripts html?

1 a resposta

O JSOUP não baixa o html completo se a página da Web for grande em tamanho. Alguma alternativa para isso ou quaisquer soluções alternativas?

Eu estava tentando obter a página HTML e analisar as informações. Acabei de descobrir que algumas páginas não foram completamente baixadas usandoJsoup. Eu verifiquei comcurl comando na linha de comando, a página completa foi ...

1 a resposta

TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs [fechado]

A abundância de analisadores de HTML para escolher (e ficar com) é incompreensível: http://java-source.net/open-source/html-parsers [http://java-source.net/open-source/html-parsers] Como escolho um que melhor atenda aos seguintes ...

1 a resposta

Recuperando todos os links de todas as páginas do resultado de pesquisa do Google usando JSoup

Eu tenho o seguinte código para analisar HTML em java usando JSoup. Document linksDoc = null; linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get(); Elements titles = linksDoc.select("h3.r > a"); ...

29 a resposta

Opções para raspagem de HTML? [fechadas]

Estou pensando em tentarSopa bonita [http://en.wikipedia.org/wiki/Beautiful_Soup], um pacote Python para raspagem de HTML. Existem outros pacotes de raspagem de HTML que eu deveria estar olhando? Python não é um requisito, estou realmente ...

1 a resposta

Jsoup: Extraindo texto interno da marca âncora

Aqui está o meu problema. Eu tenho um conteúdo html: innerText Eu preciso extrair o "innerText". Ao tentar isso no Jsoup, descobri que o texto interno sai da tag anchor quando analisado pelo Jsoup. Aqui está o meu código Document ...

3 a resposta

Importando o bs4 no Python 3.5

Eu instalei o Python 3.5 e o Beautifulsoup4. Quando tento importar o bs4, recebo o erro abaixo. Existe alguma correção para isso? Ou devo apenas instalar o Python 3.4? Por favor, seja muito explícito - eu sou novo em programação. ...

2 a resposta

raspando uma resposta de uma opção selecionada na lista suspensa

Este é um exemplo de página que lista as estatísticas de beisebol de um jogador selecionado, por padrão no ano mais recente (2014, em breve em ...