pdf lesen via pdfbox in java

Ich habe ein Problem beim Lesen des PDF-Dokuments mit pdfbox festgestellt. Mein aktuelles PDF ist teilweise unlesbar. Wenn ich den unlesbaren Teil in einem Editor kopiere und einfüge, werden kleine Kästchensymbole angezeigt. Wenn ich jedoch versuche, dieselbe Datei über pdfbox zu lesen, werden diese Zeichen nicht gelesen (und ich erwarte sie nicht) gelesen werden). Was ich erwarte, ist, dass ich zumindest einige Symbole oder zufällige Zeichen anstelle der tatsächlichen Zeichen erhalte. Gibt es eine Möglichkeit, das zu tun? Diese Zeile wird ausgewählt, damit es sich nicht um ein Bild handelt. Hat jemand eine Problemumgehung dafür gefunden?

Es gibt ein pdfbox-Beispiel, in dem wir die writeString-Methode unter der pdfTextStripper-Klasse überschreiben, um einige zusätzliche Schrifteigenschaften zu erhalten. Ich benutze diese Methode, um meinen Text und einige Schrifteigenschaften zu erhalten. Meine Frage war also, warum die PDF-Box nicht jedes Zeichen liest (es kann Kauderwelsch ausgeben). Aber in meinem Fall habe ich das Nein gezählt. Mal wurde die Methode aufgerufen (jeder Methodenaufruf entspricht jedem Zeichen) und sah, dass die Nr. Anzahl der Methodenaufrufe stimmte nicht mit der Anzahl der Zeichen im ausgegebenen Text überein, stimmte jedoch nicht mit der Gesamtanzahl der Zeichen überein. von Zeichen im PDF. Hier ist ein Beispiel-PDF, das Wort "Profit" ist nicht lesbar und das PDF zeigt nicht einmal Kauderwelsch für dieses Wort an. Es überspringt es einfach insgesamt. Hier ist der Link.https: //drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view? usp = sharing

Antworten auf die Frage(2)

Ihre Antwort auf die Frage