Welches ist die richtige Methode zur Textextraktion?
In meinem C # -Code extrahiere ich Text aus einem PDF-Dokument, und ich habe zwei Methoden, um dies zu tun. 1 Methode funktioniert jedoch für 1 PDF-Dokumenttyp und die andere Methode für den anderen PDF-Dokumenttyp.
Wenn Methode 1 fehlschlägt, erhalte ich den Text, jedoch ohne Leerzeichen, und wenn Methode 2 fehlschlägt, erhalte ich nur \ r \ n.
Methode 1 (Klasse vonhttp://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET)
PDFParser pdf_parser = new PDFParser();
currentText = pdf_parser.ExtractTextFromPDFBytes(pdfReader.GetPageContent(page)) + " ";
Methode 2
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
currentText = output.ToString();
Gibt es eine Möglichkeit, beide Funktionen zu kombinieren, damit es immer funktioniert?