Resultados da pesquisa a pedido "apache-tika"
Problema de implantação do Tika-Parsers no Wildfly
Como parte de um aplicativo da web, preciso analisar o conteúdo textual de diferentes arquivos recebidos. Isso deve ser bastante simples usandotika-parsers , mas assim que tento implantar meu webapp emVôo selvagem(testado V.8.2.1 e V.10.0.0.RC4) ...
É possível extrair texto por página para arquivos word / pdf usando o Apache Tik
Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?
Apache Tika e limite de caracteres ao analisar documentos
Alguém poderia me ajudar a resolver o problema? Pode ser feito assim Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Mas se você não usar o Tika diretamente, assim: ContentHandler textHandler = new BodyContentHandler(); Metadata ...
Indexando PDF com Solr
Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...
Obtendo o subtipo MimeType com o Apache tika
Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...
Como posso detectar páginas da web farsi por tika?
Preciso de um código de exemplo para me ajudar a detectar páginas da Web em idioma farsi pelo apache tika toolki LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Fiz o download dos ...