Resultados da pesquisa a pedido "apache-tika"

3 a resposta

É possível extrair texto por página para arquivos word / pdf usando o Apache Tik

Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?

4 a resposta

como analisar html com nutch e indexar tag específica para solr?

Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags par...

4 a resposta

Como criar um modelo personalizado usando o OpenNLP?

estou tentandoextrair entidades gostarNomes, Habilidades do documento usandoAPI Java OpenNLP. masnão está extraindo nomes próprios. Eu estou usando o modelo ...

4 a resposta

Obtendo o subtipo MimeType com o Apache tika

Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...

5 a resposta

Leia o conteúdo de arquivos que estão dentro do arquivo zip

Eu estou tentando criar um programa java simples que lê e extrai o conteúdo do arquivo (s) dentro do arquivo zip. O arquivo zip contém 3 arquivos (txt, pdf, ...

5 a resposta

Indexando PDF com Solr

Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...