Как получить Unicode символов из PDF, используя java и PDFBox
Я использую Apache PDFBox и Java для анализа PDF-файлов и получения всей информации из него. Извлечение текста работает нормально только для английского языка. Для других языков я получаю только некоторые специальные символы. Например, извлечение арабского символа ش даст строку: "? на печать. Работает нормально, когда меняю "Регион и язык" моего компьютера с английского на арабский. Поэтому я думаю, что извлечение символов Unicode решит эту проблему. Пожалуйста, помогите мне получить Unicode символов из PDF или предложить мне несколько решений для решения этой проблемы.