Resultados de la búsqueda a petición "apache-tika"

0 la respuesta

Problema de fuga de memoria con PDFBox

Estoy usandoPDF Box version 2.0.9 en mi solicitud. Tengo que analizar archivos PDF grandes desde la web. El siguiente es el código que estoy usando MimeDetector Class @Getter @Setter class MimeTypeDetector { private ...

3 la respuesta

Es posible extraer texto por página para archivos word / pdf usando Apache Tika?

Toda la documentación que puedo encontrar parece sugerir que solo puedo extraer todo el contenido del archivo. Pero necesito extraer páginas individualmente. ¿Necesito escribir mi propio analizador para eso? ¿Hay algún método obvio que me falta?

1 la respuesta

Apache Tika y límite de caracteres al analizar documentos

¿Podría alguien ayudarme a resolverlo? Se puede hacer así Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); Pero si no usas Tika directamente, así: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata = ...

5 la respuesta

Indexing PDF con Solr

¿Alguien puede señalarme un tutorial? Mi experiencia principal con Solr es indexar archivos CSV. Pero no puedo encontrar ninguna instrucción / tutorial simple que me diga qué debo hacer para indexar archivos PDF. He visto esto:http: ...

4 la respuesta

Obtener el subtipo MimeType con Apache tika

Necesitaría obtener iana.org MediaType en lugar de application / zip o application / x-tika-msoffice para documentos como, odt, ppt, pptx, xlsx, etc. Si observa mimetypes.xml, hay elementos mimeType compuestos por iana.org mime-type y ...

2 la respuesta

¿Cómo puedo detectar las páginas web farsi de tika?

Necesito un código de muestra para ayudarme a detectar páginas web en lenguaje farsi con el kit de herramientas apache tika. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage(); He ...