Resultados de la búsqueda a petición "apache-tika"

2 la respuesta

¿Cómo comparar dos PDFs basados ​​en diferencias visuales programáticamente? [cerrado]

1 la respuesta

No se puede extraer el pdf escaneado con TesseractOCRConfig Apache Tika

Mi pdf contiene imágenes escaneadas y quiero extraerle texto. Lo que probé: intenté con AutoDetectParsers pero sin salida. Seguí la solución provista enExtracto de Apache Tika archivos PDF ...

0 la respuesta

Apache tika detecta el tipo mime incorrectamente para csv

He creado.csv archivo usando excel y escribí el siguiente código usando apache tika: public static boolean checkThatMimeTypeIsCsv(InputStream inputStream) throws IOException { BufferedInputStream bis = new ...

1 la respuesta

Apache Tika cómo extraer el cuerpo html sin contenido de encabezado y pie de página

Estoy buscando extraer todo el contenido del cuerpo de html excepto el encabezado y el pie de página, sin embargo, obtengo una excepción org.xml.sax.SAXException: espacio de nombreshttp://www.w3.org/1999/xhtml [http://www.w3.org/1999/xhtml]No ...

1 la respuesta

Verificación de tipo Mime usando frascos Tika

Estoy desarrollando un proceso por lotes Java solo estándar. Estoy tratando de determinar el tipo de archivo adjunto mimety usando Tika Jars. Estoy usando archivos Tika 1.4 Jar. Mi código se parece a Parser parser= new AutoDetectParser(); ...

1 la respuesta

Uso correcto de Apache Tika MediaType

Quiero usar la clase MediaType de APache Tika para comparar mediaTypes. Primero uso Tika para detectar MediaType. Entonces quiero comenzar una acción de acuerdo con MediaType. Entonces, si MediaType es del tipo XML, quiero hacer alguna acción, ...

2 la respuesta

Extraer imágenes de PDF con Apache Tika

Apache Tika 1.6 tiene la capacidad de extraer imágenes en línea de documentos PDF. Sin embargo, he estado luchando para que funcione. Mi caso de uso es que quiero un código que extraiga el contenido y separe las imágenes de cualquier documento ...

3 la respuesta

¿Cómo indizo documentos en SOLR?

Estoy ejecutando Solr 1.4 en Ubuntu 10.04 (instalado a través de apt-get solr-tomcat) y parece estar funcionando bien. Sin embargo, tengo algunas dificultades para encontrar información coherente sobre cómo indexar documentos. Soy nuevo en SOLR, ...

1 la respuesta

Extracto de Apache Tika archivos PDF escaneados

Tengo algunos problemas al usar Apache TIKA (versión 1.10). Tengo algunos archivos PDF que son solo hojas de papel escaneadas. Eso significa que cada página es solo una imagen. Mi objetivo es extraer el texto de los archivos PDF de todos ...

2 la respuesta

Problema de implementación de Tika-Parsers en Wildfly

Como parte de una aplicación web, necesito analizar el contenido textual de diferentes archivos entrantes. Esto debería ser bastante simple usando analizadores tika, pero tan pronto como intento implementar mi aplicación web en Vuelo ...