Resultados da pesquisa a pedido "html-content-extraction"

8 a resposta

BeautifulSoup Pegue o texto da página da Web visível

Basicamente, eu quero usar o BeautifulSoup para pegar estritamente otexto visível em uma página da web. Por exemplo,esta página da web é o meu caso de teste....

4 a resposta

Quais algoritmos eu poderia usar para identificar conteúdo em uma página da web

2 a resposta

Usando o módulo Beautiful Soup Python para substituir tags por texto simples

estou usandoSopa Bonita para extrair 'conteúdo' de páginas da web. Eu sei que algumas pessoas perguntaram issoquestão antes e todos eles foram aponta...

2 a resposta

Em java, como corrigir o erro HTTP 416 O intervalo solicitado não é satisfatório? (Ao baixar conteúdo da Web de uma página da Web)

Estou tentando baixar o conteúdo html de uma página da web e obter o status 416. Encontrei uma solução que melhora corretamente o código de status como 200, mas ainda não está baixando o conteúdo adequado. Estou muito perto, mas falta algo. Por ...

29 a resposta

Opções para raspagem de HTML? [fechadas]

Estou pensando em tentarSopa bonita [http://en.wikipedia.org/wiki/Beautiful_Soup], um pacote Python para raspagem de HTML. Existem outros pacotes de raspagem de HTML que eu deveria estar olhando? Python não é um requisito, estou realmente ...

5 a resposta

Como você analisa um HTML no vb.net

Gostaria de saber se existe uma maneira simples de analisar HTML no vb.net. Eu sei que HTML não é um subconjunto sctrict de XML, mas seria bom se pudesse ser tratado dessa maneira. Existe alguma coisa lá fora que me permita analisar o HTML de ...

6 a resposta

RegEx para extrair propriedades de imagem HTML

Eu preciso de um padrão RegEx para extrair todas as propriedades de uma marca de imagem. Como todos sabemos, há muitos HTML malformados por aí, então o padrão precisa cobrir essas possibilidades. Eu estava olhando para esta ...

15 a resposta

Qual é a melhor maneira de analisar html em c #? [fechadas

Estou procurando uma biblioteca / método para analisar um arquivo html com mais recursos específicos html do que as bibliotecas genéricas de análise xm