processamento de imagem para melhorar a precisão do OCR do tesseract

Estou usando o tesseract para converter documentos em texto. A qualidade dos documentos varia muito e estou procurando dicas sobre que tipo de processamento de imagem pode melhorar os resultados. Percebi que o texto altamente pixelizado - por exemplo, o gerado por máquinas de fax - é especialmente difícil para o tesseract processar - presumivelmente todas essas bordas irregulares nos caracteres confundem os algoritmos de reconhecimento de form

Que tipo de técnicas de processamento de imagem melhoraria a precisão ?, estou usando um desfoque gaussiano para suavizar as imagens pixeladas e vi algumas pequenas melhorias, mas espero que exista uma técnica mais específica que produza melhores resultados . Diga um filtro que foi ajustado para imagens em preto e branco, que suavizariam bordas irregulares, seguido de um filtro que aumentaria o contraste para tornar os caracteres mais distinto

Alguma dica geral para quem é iniciante no processamento de imagen

questionAnswers(24)

yourAnswerToTheQuestion