Pré-processamento de imagem antes do processo de OCR

Question

Mar 21, 2013, 10:30 PM

Pré-processamento de imagem antes do processo de OCR

Meu projeto atual envolve transcrever textos em pdf em arquivos de texto, e eu primeiro tentei colocar o arquivo de imagem diretamente no programa OCR (tesseract) e ele não fez isso bem. Os arquivos de imagem originais são antigos, basicamente, e têm alguns ruídos de fundo, com os quais tenho certeza que o problema está relacionado. Então, estou tentando usar algum pré-processamento de imagem antes de alimentá-lo em tesseract. Existe alguma sugestão para o mecanismo de pré-processamento de imagem de código aberto que se encaixa bem nessa situação? E instruções sobre como usá-lo seriam ainda mais apreciadas!