Welches ist die richtige Methode zur Textextraktion?

Question

Dec 20, 2012, 06:50 PM

Welches ist die richtige Methode zur Textextraktion?

In meinem C # -Code extrahiere ich Text aus einem PDF-Dokument, und ich habe zwei Methoden, um dies zu tun. 1 Methode funktioniert jedoch für 1 PDF-Dokumenttyp und die andere Methode für den anderen PDF-Dokumenttyp.

Wenn Methode 1 fehlschlägt, erhalte ich den Text, jedoch ohne Leerzeichen, und wenn Methode 2 fehlschlägt, erhalte ich nur \ r \ n.

Methode 1 (Klasse vonhttp://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET)

PDFParser pdf_parser = new PDFParser();
currentText = pdf_parser.ExtractTextFromPDFBytes(pdfReader.GetPageContent(page)) + " ";

Methode 2

StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
    output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
currentText = output.ToString();

Gibt es eine Möglichkeit, beide Funktionen zu kombinieren, damit es immer funktioniert?