PDF Lesen von hervorgehobenem Text (Hervorheben von Anmerkungen) mit C #

Ich habe ein Extraktionstool mit iTextSharp geschrieben, das Anmerkungsinformationen aus PDF-Dokumenten extrahiert. Für die Hervorhebungsannotation erhalte ich nur ein Rechteck für den Bereich auf der Seite, der hervorgehoben ist.

Ich möchte den hervorgehobenen Text extrahieren. Dafür benutze ich `PdfTextExtractor '.

Rectangle rect = new Rectangle(
    pdfArray.GetAsNumber(0).FloatValue, 
    pdfArray.GetAsNumber(1).FloatValue,
    pdfArray.GetAsNumber(2).FloatValue,
    pdfArray.GetAsNumber(3).FloatValue);

RenderFilter[] filter = { new RegionTextRenderFilter(rect) };
ITextExtractionStrategy strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), filter);
string textInsideRect = PdfTextExtractor.GetTextFromPage(pdfReader, pageNo, strategy);
return textInsideRect;

Das Ergebnis wurde von zurückgegebenPdfTextExtractor ist nicht ganz richtig. Zum Beispiel kehrt es zurück"Wollte die Schnitzeljagd beseitigen" obwohl nur"beseitigen" wurde hervorgehoben.

Interessant genug, den gesamten Text für den TJ mit den hervorgehobenen"beseitigen" ist"Wollte die Schnitzeljagd beseitigen" (TJ ist die PDF-Anweisung, die Text auf die Seite schreibt.)

Ich würde gerne Beiträge zu diesem Thema hören - auch zu Lösungen, die nicht mit iTextSharp zu tun haben.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage