Resultados da pesquisa a pedido "apache-tika"
Como posso detectar páginas da web farsi por tika?
Preciso de um código de exemplo para me ajudar a detectar páginas da Web em idioma farsi pelo apache tika toolki LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Fiz o download dos ...
Obtendo o subtipo MimeType com o Apache tika
Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...
Indexando PDF com Solr
Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...
Apache Tika e limite de caracteres ao analisar documentos
Alguém poderia me ajudar a resolver o problema? Pode ser feito assim Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Mas se você não usar o Tika diretamente, assim: ContentHandler textHandler = new BodyContentHandler(); Metadata ...
É possível extrair texto por página para arquivos word / pdf usando o Apache Tik
Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?
Como indexar documentos no SOLR?
Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...