Resultados da pesquisa a pedido "apache-tika"

2 a resposta

Problema de implantação do Tika-Parsers no Wildfly

Como parte de um aplicativo da web, preciso analisar o conteúdo textual de diferentes arquivos recebidos. Isso deve ser bastante simples usandotika-parsers , mas assim que tento implantar meu webapp emVôo selvagem(testado V.8.2.1 e V.10.0.0.RC4) ...

3 a resposta

É possível extrair texto por página para arquivos word / pdf usando o Apache Tik

Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?

1 a resposta

Apache Tika e limite de caracteres ao analisar documentos

Alguém poderia me ajudar a resolver o problema? Pode ser feito assim Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Mas se você não usar o Tika diretamente, assim: ContentHandler textHandler = new BodyContentHandler(); Metadata ...

5 a resposta

Indexando PDF com Solr

Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...

4 a resposta

Obtendo o subtipo MimeType com o Apache tika

Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...

2 a resposta

Como posso detectar páginas da web farsi por tika?

Preciso de um código de exemplo para me ajudar a detectar páginas da Web em idioma farsi pelo apache tika toolki LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Fiz o download dos ...