Highlight-Text in einer PDF-Datei mit Python [closed]

Question

Oct 27, 2016, 05:18 PM

Highlight-Text in einer PDF-Datei mit Python [closed]

Ich arbeite an einer benutzerdefinierten Suchmaschine für meinen PDF-Datenkorpus.

Ich habe eine Transformationsebene, mit der PDF-Inhalte in Text umgewandelt werden können (mit Apache Tika und GROBID). Ich habe die Suchebenen und die Ansicht beendet, in der die Suchergebnisse aufgelistet sind.

Jetzt möchte ich eine Hervorhebungsfunktion für die Zeilen im Original-PDF hinzufügen, in denen Suchbegriffe angezeigt wurden. Ja, ich möchte PDF-Dateien ändern, falls dies erforderlich ist.

Gibt es eine Möglichkeit, Text in einer PDF-Datei hervorzuheben? Können PDFMiner oder PyPDF2 oder eine andere Python-Bibliothek das?

... oder können Sie einen anderen, vielleicht externen Service dafür empfehlen?