Resultados da pesquisa a pedido "apache-tika"
Indexar conteúdo de arquivo pdf usando o Apache Solr
Estou usando o Solrextensão php para interagir com o Apache Solr. Estou indexando dados do banco de dados. Eu queria indexar o conteúdo de arquivos externos ...
O Apache Tika detecta incorretamente o tipo MIME para CSV
Eu criei.csv arquivo usando o excel e eu escrevi o seguinte código usando o apache tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...
Leia o conteúdo de arquivos que estão dentro do arquivo zip
Eu estou tentando criar um programa java simples que lê e extrai o conteúdo do arquivo (s) dentro do arquivo zip. O arquivo zip contém 3 arquivos (txt, pdf, ...
É possível extrair texto por página para arquivos word / pdf usando o Apache Tik
Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?
Como criar um modelo personalizado usando o OpenNLP?
estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...
Como indexar documentos no SOLR?
Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...
Problema de vazamento de memória com PDFBox
estou usandoPDF Box version 2.0.9 na minha aplicação. Eu tenho que analisar grandes arquivos pdf da web. A seguir está o código que estou usando Classe MimeDetector @Getter @Setter class MimeTypeDetector { private ...
Não foi possível extrair o PDF digitalizado usando o TesseractOCRConfig Apache Tika
Meu pdf contém imagens digitalizadas e desejo extrair texto dele. O que tentei: tentei com o AutoDetectParsers, mas sem saída. Eu segui a solução fornecida emApache Tika extrai arquivos PDF ...
como analisar html com nutch e indexar tag específica para solr?
Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...