Silnik OCR Tesseract nie jest w stanie odczytać tekstu z obrazu wygenerowanego automatycznie, ale może z CUT w MS Paint
Używam opakowania .NET dla silnika OCR Tesseract. Mam duży dokument, który jest PNG. Kiedy wycinam fragment obrazu w farbie MS, a następnie wprowadzam go do silnika, działa. Ale kiedy robię to w kodzie, silnik nie może rozpoznać tekstu na obrazie. Obrazy wyglądają tak samo, a właściwości nie są bardzo widoczne. Więc jestem trochę zdezorientowany.
Oto dwa obrazy. Z farby MS:
Z kodu:
Oto, co otrzymuję z obrazu farby MS:
I poprzez kod:
Są naprawdę podobne, więc nie jestem pewien, dlaczego nie może rozpoznać drugiego tekstu. Poniżej przedstawiono sposób generowania obrazu.
public Bitmap CropImage(Bitmap source, Rectangle section)
{
Bitmap bmp = new Bitmap(section.Width, section.Height);
Graphics g = Graphics.FromImage(bmp);
g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel);
return bmp;
}
private void Form1_Load(object sender, EventArgs e)
{
Bitmap source = new Bitmap(test);
Rectangle section = new Rectangle(new Point(78, 65), new Size(800, 50));
Bitmap CroppedImage = CropImage(source, section);
CroppedImage.Save(@"c:\users\user\desktop\test34.png", System.Drawing.Imaging.ImageFormat.Png);
this.pictureBox1.Image = CroppedImage;
}