Resultados da pesquisa a pedido "apache-tika"

2 a resposta

Como posso detectar páginas da web farsi por tika?

Preciso de um código de exemplo para me ajudar a detectar páginas da Web em idioma farsi pelo apache tika toolki LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage();Fiz o download dos ...

4 a resposta

Obtendo o subtipo MimeType com o Apache tika

Eu precisaria obter o iana.org MediaType em vez de application / zip ou application / x-tika-msoffice para documentos como odt, ppt, pptx, xptx, xlsx etc. Se você olhar para mimetypes.xml, existem elementos mimeType compostos do tipo mime ...

5 a resposta

Indexando PDF com Solr

Alguém pode me indicar um tutoria Minha principal experiência com o Solr é indexar arquivos CSV. Mas não consigo encontrar instruções / tutoriais simples para me dizer o que preciso fazer para indexar PDFs. Vi isso:http: ...

1 a resposta

Apache Tika e limite de caracteres ao analisar documentos

Alguém poderia me ajudar a resolver o problema? Pode ser feito assim Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024);Mas se você não usar o Tika diretamente, assim: ContentHandler textHandler = new BodyContentHandler(); Metadata ...

3 a resposta

É possível extrair texto por página para arquivos word / pdf usando o Apache Tik

Toda a documentação que encontro parece sugerir que só posso extrair o conteúdo do arquivo inteiro. Mas preciso extrair páginas individualmente. Preciso escrever meu próprio analisador para isso? Existe algum método óbvio que estou faltando?

3 a resposta

Como indexar documentos no SOLR?

Estou executando o Solr 1.4 no Ubuntu 10.04 (instalado via apt-get solr-tomcat) e parece estar funcionando bem. No entanto, estou tendo alguma dificuldade em encontrar informações coerentes sobre como indexar documentos. Sou novo na SOLR, então ...