Lesen Sie PDF mit itextsharp, wenn die PDF-Sprache nicht Englisch ist
Ich versuche zu lesendiese PDF mit itextsharp in C #, das dieses PDF in eine Word-Datei konvertiert. es muss auch Tabellenformatierung und Schriftarten in Wort beibehalten, wenn ich es mit Englisch-PDF versuche, wird es perfekt funktionieren, aber mit einigen der indischen Sprachen wie Hindi, Marathi funktioniert es nicht.
public string ReadPdfFile(string Filename)
{
string strText = string.Empty;
StringBuilder text = new StringBuilder();
try
{
PdfReader reader = new PdfReader((string)Filename);
if (File.Exists(Filename))
{
PdfReader pdfReader = new PdfReader(Filename);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{ ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text.Append(currentText);
pdfReader.Close();
}
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
textBox1.Text = text.ToString();
return text.ToString(); ;
}