Bildverarbeitung für OCR mit Leptonica (inverser Farbtext)

Question

Jul 26, 2012, 11:48 PM

Bildverarbeitung für OCR mit Leptonica (inverser Farbtext)

Ich versuche, das folgende Bild mit Leptonica zu verarbeiten, um Text mit Tesseract zu extrahieren.

Original Bild:

Tesseract auf dem Originalbild ergibt dies:

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-

Nicht so toll, besonders der obere Hintergrund. Daher verwende ich mit leptionica einen Hintergrund-Entfernungsalgorithmus (Unschärfe, Differenz, Schwelle, Invertierung), um folgendes Bild zu erhalten:

Aber tesseract macht keinen guten Job damit:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I

Das Hauptproblem scheint zu sein, dass jetzt der gesamte Text anstatt durchgehend umrissen ist. Wie kann ich meinen Algorithmus anpassen oder was kann ich hinzufügen, um den Text solide zu machen?