Как получить Unicode символов из PDF, используя java и PDFBox

Question

Sep 25, 2012, 06:10 AM

Как получить Unicode символов из PDF, используя java и PDFBox

Я использую Apache PDFBox и Java для анализа PDF-файлов и получения всей информации из него. Извлечение текста работает нормально только для английского языка. Для других языков я получаю только некоторые специальные символы. Например, извлечение арабского символа ش даст строку: "? на печать. Работает нормально, когда меняю "Регион и язык" моего компьютера с английского на арабский. Поэтому я думаю, что извлечение символов Unicode решит эту проблему. Пожалуйста, помогите мне получить Unicode символов из PDF или предложить мне несколько решений для решения этой проблемы.

Как получить Unicode символов из PDF, используя java и PDFBox

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как получить Unicode символов из PDF, используя java и PDFBox

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы