Resultados da pesquisa a pedido "apache-tika"

1 a resposta

Indexar conteúdo de arquivo pdf usando o Apache Solr

Estou usando o Solrextensão php para interagir com o Apache Solr. Estou indexando dados do banco de dados. Eu queria indexar o conteúdo de arquivos externos ...

0 a resposta

O Apache Tika detecta incorretamente o tipo MIME para CSV

Eu criei.csv arquivo usando o excel e eu escrevi o seguinte código usando o apache tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...

5 a resposta

Leia o conteúdo de arquivos que estão dentro do arquivo zip

Eu estou tentando criar um programa java simples que lê e extrai o conteúdo do arquivo (s) dentro do arquivo zip. O arquivo zip contém 3 arquivos (txt, pdf, ...

3 a resposta

É possível extrair texto por página para arquivos word / pdf usando o Apache Tik

Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?

4 a resposta

Como criar um modelo personalizado usando o OpenNLP?

estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...

3 a resposta

Como indexar documentos no SOLR?

Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...

2 a resposta

Elasticsearch Parse Erro de exceção ao tentar indexar PDF

0 a resposta

Problema de vazamento de memória com PDFBox

estou usandoPDF Box version 2.0.9 na minha aplicação. Eu tenho que analisar grandes arquivos pdf da web. A seguir está o código que estou usando Classe MimeDetector @Getter @Setter class MimeTypeDetector { private ...

1 a resposta

Não foi possível extrair o PDF digitalizado usando o TesseractOCRConfig Apache Tika

Meu pdf contém imagens digitalizadas e desejo extrair texto dele. O que tentei: tentei com o AutoDetectParsers, mas sem saída. Eu segui a solução fornecida emApache Tika extrai arquivos PDF ...

4 a resposta

como analisar html com nutch e indexar tag específica para solr?

Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...