Leyendo contenido pdf usando iTextSharp en C #
Utilizo este código para leer contenido pdf usando iTextSharp. funciona bien cuando el contenido es inglés, pero no funciona cuando el contenido es persa o árabe
El resultado es algo como esto:
aquí Es una muestra de PDF no inglesa para prueba.
ÙŽÙ ›Ù † ا ÙÙ" Ø¨Ù˜Ø · Ø «ÛŒØ¿ÛŒÙ› Ù˜ زؾا ÙÙ ›ÙØ” Ù‚Ù ›Ù… Ø ÛŒÙ" ب٠• س © Karl Seguin foppersian.opplejo. com www.codebetter.com 1 1 ÙÙ "بÙØØ · Ø« ÙŽÙ ›Ù † ا یؿیٛ Ù˜
<code>همانرب لوصا یسیون مرن دیلوت رتهب رازÙا </code>
Cuál es la solución ?
<code> public string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText))); text.Append(currentText); pdfReader.Close(); } } return text.ToString(); } </code>