Wstępne przetwarzanie obrazu przed procesem OCR

Question

Mar 21, 2013, 10:30 PM

Wstępne przetwarzanie obrazu przed procesem OCR

Mój obecny projekt polega na transkrypcji tekstów w formacie PDF na pliki tekstowe i po raz pierwszy spróbowałem umieścić plik obrazu bezpośrednio w programie OCR (tesseract) i nie zrobił tego dobrze. Oryginalne pliki graficzne to w zasadzie stare gazety informacyjne i mają pewne szumy w tle, z którymi z pewnością ma problem tesseract. Próbuję więc użyć jakiegoś wstępnego przetwarzania obrazu przed podaniem go do tesseract. Czy jest jakaś sugestia dotycząca silnika wstępnego przetwarzania obrazu open source, który dobrze pasuje do tej sytuacji? A instrukcje, jak go używać, byłyby jeszcze bardziej doceniane!