Resultados da pesquisa a pedido "apache-tika"
Como criar um modelo personalizado usando o OpenNLP?
estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...
Apache Tika como extrair corpo html sem conteúdo de cabeçalho e rodapé
Estou procurando extrair todo o conteúdo do corpo do html, exceto o cabeçalho e o rodapé, mas estou recebendo exceção org.xml.sax.SAXException: espaço para nomehttp://www.w3.org/1999/xhtml [http://www.w3.org/1999/xhtml]Não Declarado Abaixo está ...
O Apache Tika detecta incorretamente o tipo MIME para CSV
Eu criei.csv arquivo usando o excel e eu escrevi o seguinte código usando o apache tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...
Como comparar dois PDFs com base em diferenças visuais programaticamente? [fechadas]
Preciso comparar e obter todas as diferenças visuais nos dois arquivos PDF. Eu sei que existem algumas perguntas relacionadas a isso no estouro de pilha, mas elas não estão atendendo minha necessidade. Atualmente, estou usando o PDFBox para ...
Verificação mimetype usando frascos Tika
Estou desenvolvendo o processo em lote Java padrão sozinho. Estou tentando determinar o mimetype de anexo de arquivo usando o Tika Jars. Estou usando arquivos Tika 1.4 Jar. Meu código parece Parser parser= new AutoDetectParser(); InputStream ...
Uso correto do Apache Tika MediaType
Eu quero usar a classe MediaType do APache Tika para comparar mediaTypes. Primeiro uso o Tika para detectar o MediaType. Quero iniciar uma ação de acordo com o MediaType. Portanto, se o MediaType for do tipo XML, desejo executar alguma ação, se ...
Extrair imagens de PDF com Apache Tika
O Apache Tika 1.6 tem a capacidade de extrair imagens embutidas de documentos PDF. No entanto, tenho lutado para fazê-lo funcionar. Meu caso de uso é que desejo um código que extraia o conteúdo e as imagens separadamente de qualquer documento ...
Como indexar documentos no SOLR?
Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...
Problema de vazamento de memória com PDFBox
estou usandoPDF Box version 2.0.9 na minha aplicação. Eu tenho que analisar grandes arquivos pdf da web. A seguir está o código que estou usando Classe MimeDetector @Getter @Setter class MimeTypeDetector { private ...
Apache Tika extrai arquivos PDF digitalizados
Estou tendo alguns problemas com o Apache TIKA (versão 1.10). Eu tenho alguns arquivos PDF que são apenas pedaços de papel digitalizados. Isso significa que cada página é apenas uma imagem. Meu objetivo é extrair o texto dos arquivos PDF de ...