Silnik OCR Tesseract nie jest w stanie odczytać tekstu z obrazu wygenerowanego automatycznie, ale może z CUT w MS Paint

Question

May 19, 2013, 09:57 PM

Silnik OCR Tesseract nie jest w stanie odczytać tekstu z obrazu wygenerowanego automatycznie, ale może z CUT w MS Paint

Używam opakowania .NET dla silnika OCR Tesseract. Mam duży dokument, który jest PNG. Kiedy wycinam fragment obrazu w farbie MS, a następnie wprowadzam go do silnika, działa. Ale kiedy robię to w kodzie, silnik nie może rozpoznać tekstu na obrazie. Obrazy wyglądają tak samo, a właściwości nie są bardzo widoczne. Więc jestem trochę zdezorientowany.

Oto dwa obrazy. Z farby MS:

Z kodu:

Oto, co otrzymuję z obrazu farby MS:

I poprzez kod:

Są naprawdę podobne, więc nie jestem pewien, dlaczego nie może rozpoznać drugiego tekstu. Poniżej przedstawiono sposób generowania obrazu.

public Bitmap CropImage(Bitmap source, Rectangle section)
    {
        Bitmap bmp = new Bitmap(section.Width, section.Height);
        Graphics g = Graphics.FromImage(bmp);
        g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel);

        return bmp;
    }

    private void Form1_Load(object sender, EventArgs e)
    {
        Bitmap source = new Bitmap(test);
        Rectangle section = new Rectangle(new Point(78, 65), new Size(800, 50));
        Bitmap CroppedImage = CropImage(source, section);
        CroppedImage.Save(@"c:\users\user\desktop\test34.png", System.Drawing.Imaging.ImageFormat.Png);

        this.pictureBox1.Image = CroppedImage;
    }