¿Cuál es el método correcto para la estrategia de extracción de texto?

Question

Dec 20, 2012, 06:50 PM

¿Cuál es el método correcto para la estrategia de extracción de texto?

En mi código c # estoy extrayendo texto de un pdf, y tengo dos métodos para hacerlo. Sin embargo, 1 método funciona para 1 tipo de documento pdf y el otro método funciona para el otro tipo de documento PDF.

Cuando falla el método 1, obtengo el texto pero sin espacios en blanco, y cuando falla el método 2, solo obtengo \ r \ n.

Método 1 (clase dehttp://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET)

PDFParser pdf_parser = new PDFParser();
currentText = pdf_parser.ExtractTextFromPDFBytes(pdfReader.GetPageContent(page)) + " ";

Método 2

StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
    output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
currentText = output.ToString();

¿Hay alguna manera de combinar ambas funciones para que siempre funcione?