Extracto de Apache Tika archivos PDF escaneados

Question

Sep 02, 2015, 03:13 PM

Extracto de Apache Tika archivos PDF escaneados

Tengo algunos problemas al usar Apache TIKA (versión 1.10). Tengo algunos archivos PDF que son solo hojas de papel escaneadas. Eso significa que cada página es solo una imagen. Mi objetivo es extraer el texto de los archivos PDF de todos modos.

Mi tesseract está configurado correctamente y extraer archivos JPG y PNG funciona de maravilla. El código que estoy usando se ve así (no importa el manejo de excedencia faltante):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Busqué mucho pero no encontré ninguna solución que funcione para mí. Ya probé elsetExtractInlineImages método de laPDFParserConfig clase pero esto no cambió nada. Extracción de documentos incrustados utilizando una costumbreParsingEmbeddedDocumentExtractor extraje recursos incrustados de un archivo doc pero no para mis archivos PDF.

Sería increíble si alguno de ustedes pudiera proporcionar ayuda :)