Resultados da pesquisa a pedido "apache-tika"
É possível extrair texto por página para arquivos word / pdf usando o Apache Tik
Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?
como analisar html com nutch e indexar tag específica para solr?
Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...
Como criar um modelo personalizado usando o OpenNLP?
estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...
Obtendo o subtipo MimeType com o Apache tika
Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...
Leia o conteúdo de arquivos que estão dentro do arquivo zip
Eu estou tentando criar um programa java simples que lê e extrai o conteúdo do arquivo (s) dentro do arquivo zip. O arquivo zip contém 3 arquivos (txt, pdf, ...
Indexando PDF com Solr
Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...