Lesen Sie PDF mit itextsharp, wenn die PDF-Sprache nicht Englisch ist

Question

Mar 13, 2013, 01:24 PM

Lesen Sie PDF mit itextsharp, wenn die PDF-Sprache nicht Englisch ist

Ich versuche zu lesendiese PDF mit itextsharp in C #, das dieses PDF in eine Word-Datei konvertiert. es muss auch Tabellenformatierung und Schriftarten in Wort beibehalten, wenn ich es mit Englisch-PDF versuche, wird es perfekt funktionieren, aber mit einigen der indischen Sprachen wie Hindi, Marathi funktioniert es nicht.

 public string ReadPdfFile(string Filename)
        {

            string strText = string.Empty;
            StringBuilder text = new StringBuilder();
            try
            {
                PdfReader reader = new PdfReader((string)Filename);
                if (File.Exists(Filename))
                {
                    PdfReader pdfReader = new PdfReader(Filename);

                    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                    {                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                        text.Append(currentText);
                        pdfReader.Close();
                    }
                }
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
            textBox1.Text = text.ToString();
            return text.ToString(); ;
        }