Чтение PDF с использованием itextsharp, где язык PDF не является английским
Я пытаюсь читатьэто PDF, используя itextsharp в C #, который преобразует этот PDF в файл Word. Кроме того, он должен поддерживать форматирование таблиц и шрифты в слове, когда я пытаюсь использовать английский pdf, он будет работать отлично, но с использованием некоторых индийских языков, таких как хинди, маратхи, он не работает.
public string ReadPdfFile(string Filename)
{
string strText = string.Empty;
StringBuilder text = new StringBuilder();
try
{
PdfReader reader = new PdfReader((string)Filename);
if (File.Exists(Filename))
{
PdfReader pdfReader = new PdfReader(Filename);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{ ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text.Append(currentText);
pdfReader.Close();
}
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
textBox1.Text = text.ToString();
return text.ToString(); ;
}