Como detectar a área de texto da imagem?

Eu quero detectar área de texto da imagem como uma etapa de pré-processamento para o motor OCR tesseract, o mecanismo funciona bem quando a entrada é apenas texto, mas quando a imagem de entrada contém conteúdo Nontext cai, então eu quero detectar apenas conteúdo de texto na imagem, qualquer idéia de como fazer isso será útil, obrigado.