Английский текст, извлеченный с помощью itextpdf, не понятен

Question

May 16, 2014, 08:12 AM

Английский текст, извлеченный с помощью itextpdf, не понятен

Я пытаюсь извлечь и распечатать текст на английском языке из PDF на консоли. Извлечение выполняется через API itextpdf с использованием класса PdfTextExtractor. Текст, который я получаю, не понятен. Может быть, некоторые языковые проблемы, с которыми я сталкиваюсь. Мое намерение состоит в том, чтобы найти определенный текст в PDF и заменить его другой строкой. Я начал с разбора файла, чтобы найти строку. Следующий фрагмент кода представляет мой экстрактор строк:

Document document = new Document();

PdfWriter writer = PdfWriter.getInstance(document,
    new FileOutputStream(OUTPUTFILE));
document.open();
PdfReader reader = new PdfReader(input);
int n = reader.getNumberOfPages();
PdfImportedPage page;
// Go through all pages
for (int i = 1; i <= n; i++) {

    String str=PdfTextExtractor.getTextFromPage(reader, i); 
    System.out.println(str);  

}
document.close();

но вывод, который я получаю на консоли, не понятен, хотя текст в PDF-файле на английском.

Выход:

В настоящее время он не только не имеет аналогов в мире, но и имеет отношение к ретиламистам с их точки зрения. ru in tioi, dnda etseh orpvedi eddda e ulav o tawh s selbssip hwti se vdcie ollaw na tiouquibu cacess of latoutenxc e rpap t agag ag il il ae ae ae e e e e e e e of of nmirna ni soitaoli n mor f chea e. Роутс это я cel ra csea ewerh "ЭТО ИВЭО ЕРМО НАТ ЭТ МУСУ ТУ"

ртасп ".

Может кто-нибудь, пожалуйста, помогите мне, что может быть возможным решением для перевода текста на английском языке, как это в исходном PDF. Любая помощь будет высоко оценена.

Английский текст, извлеченный с помощью itextpdf, не понятен

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Английский текст, извлеченный с помощью itextpdf, не понятен

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы