Jak uzyskać Unicode znaków z PDF przy użyciu Java i PDFBox

Question

Sep 25, 2012, 08:10 AM

Jak uzyskać Unicode znaków z PDF przy użyciu Java i PDFBox

Używam Apache PDFBox i Java do analizowania plików PDF i uzyskiwania z nich wszystkich informacji. Wyodrębnianie tekstu działa poprawnie tylko w języku angielskim. W innych językach otrzymuję tylko kilka znaków specjalnych. Na przykład wyodrębnienie arabskiego znaku give da ciąg: „? Podczas drukowania. Działa dobrze, gdy zmieniam„ Region i język ”mojego komputera z angielskiego na arabski. Myślę, że wyodrębnienie Unicode znaków rozwiąże ten problem problem. Pomóż mi pobrać znaki Unicode z pliku PDF lub zaproponuj kilka rozwiązań, które pomogą rozwiązać ten problem.