Lesen von PDF-Inhalten mit iTextSharp in C #
Ich benutze diesen Code, um PDF-Inhalte mit iTextSharp zu lesen. Es funktioniert gut, wenn der Inhalt Englisch ist, aber es funktioniert nicht, wenn der Inhalt Persisch oder Arabisch ist
Das Ergebnis ist ungefähr so:
Hier ist ein Beispiel für ein nicht-englisches PDF zum Testen.
© Karl Seguin foppersian.codeplex. com www.codebetter.com 1 1 ÙÙ ”Ø¨Ù˜Ø · Ø« ÙŽÙ ›Ù † ا یؿیٛ Ù˜
<code>همانرب لوصا یسیون مرن دیلوت رتهب Ø±Ø§Ø²ÙØ§ </code>
Was ist die Lösung ?
<code> public string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText))); text.Append(currentText); pdfReader.Close(); } } return text.ToString(); } </code>