Resultados da pesquisa a pedido "apache-tika"

4 a resposta

Como criar um modelo personalizado usando o OpenNLP?

estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...

1 a resposta

Apache Tika como extrair corpo html sem conteúdo de cabeçalho e rodapé

Estou procurando extrair todo o conteúdo do corpo do html, exceto o cabeçalho e o rodapé, mas estou recebendo exceção org.xml.sax.SAXException: espaço para nomehttp://www.w3.org/1999/xhtml [http://www.w3.org/1999/xhtml]Não Declarado Abaixo está ...

0 a resposta

O Apache Tika detecta incorretamente o tipo MIME para CSV

Eu criei.csv arquivo usando o excel e eu escrevi o seguinte código usando o apache tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...

2 a resposta

Como comparar dois PDFs com base em diferenças visuais programaticamente? [fechadas]

Preciso comparar e obter todas as diferenças visuais nos dois arquivos PDF. Eu sei que existem algumas perguntas relacionadas a isso no estouro de pilha, mas elas não estão atendendo minha necessidade. Atualmente, estou usando o PDFBox para ...

1 a resposta

Verificação mimetype usando frascos Tika

Estou desenvolvendo o processo em lote Java padrão sozinho. Estou tentando determinar o mimetype de anexo de arquivo usando o Tika Jars. Estou usando arquivos Tika 1.4 Jar. Meu código parece Parser parser= new AutoDetectParser(); InputStream ...

1 a resposta

Uso correto do Apache Tika MediaType

Eu quero usar a classe MediaType do APache Tika para comparar mediaTypes. Primeiro uso o Tika para detectar o MediaType. Quero iniciar uma ação de acordo com o MediaType. Portanto, se o MediaType for do tipo XML, desejo executar alguma ação, se ...

2 a resposta

Extrair imagens de PDF com Apache Tika

O Apache Tika 1.6 tem a capacidade de extrair imagens embutidas de documentos PDF. No entanto, tenho lutado para fazê-lo funcionar. Meu caso de uso é que desejo um código que extraia o conteúdo e as imagens separadamente de qualquer documento ...

3 a resposta

Como indexar documentos no SOLR?

Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...

0 a resposta

Problema de vazamento de memória com PDFBox

estou usandoPDF Box version 2.0.9 na minha aplicação. Eu tenho que analisar grandes arquivos pdf da web. A seguir está o código que estou usando Classe MimeDetector @Getter @Setter class MimeTypeDetector { private ...

1 a resposta

Apache Tika extrai arquivos PDF digitalizados

Estou tendo alguns problemas com o Apache TIKA (versão 1.10). Eu tenho alguns arquivos PDF que são apenas pedaços de papel digitalizados. Isso significa que cada página é apenas uma imagem. Meu objetivo é extrair o texto dos arquivos PDF de ...