Przetwarzanie obrazu dla OCR z leptonica (odwrotny kolor tekstu)

Question

Jul 26, 2012, 11:48 PM

Przetwarzanie obrazu dla OCR z leptonica (odwrotny kolor tekstu)

Próbuję przetworzyć poniższy obraz za pomocą leptonica, aby wyodrębnić tekst za pomocą tesseract.

Oryginalny obraz:

Tesseract na oryginalnym obrazie daje to:

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-

Nie super, zwłaszcza górne tło. Więc używając leptionica używam algorytmu usuwania tła (rozmycie, różnica, próg, odwrócenie), aby uzyskać następujący obraz:

Ale tesseract nie radzi sobie z tym dobrze:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I

Wydaje się, że głównym problemem jest to, że teraz cały tekst jest zarysowany zamiast bryły. Jak mogę dostosować mój algorytm lub co mogę dodać, aby tekst był stały?