Zeichenerkennung (OCR-Algorithmus) [geschlossen]

Question

Mar 03, 2013, 05:58 PM

Zeichenerkennung (OCR-Algorithmus) [geschlossen]

Ich arbeite an einem Projekt, in dem ich den OCR-Algorithmus entwickeln muss (ich muss den Text aus dem Bild lesen und dann in eine andere Sprache konvertieren). Meine erste Aufgabe ist es, Text aus dem Bild zu bekommen.

Schritte, um die erste Aufgabe abzuschließen.

Laden eines beliebigen Bildformats (bmp, jpg, png) aus einer bestimmten Quelle. Konvertieren Sie dann das Bild in Graustufen und digitalisieren Sie es mit dem Schwellenwert (Otsu-Algorithmus). // erledigt (Wie entferne ich Rauschen aus dem Ausgabebild ???)

Ergebnisse

Erkennen von Bildmerkmalen wie Auflösung und Inversion. Damit wir es endlich in ein geraderes Bild zur weiteren Verarbeitung umwandeln können. (Der Drehcode des Bildes wurde vervollständigt, der Bildwinkel, um den das Bild gedreht werden muss, konnte jedoch nicht erkannt werden. Daher wird immer noch am Winkelerfassungsteil gearbeitet.)

Linien erkennen und entfernen. Dieser Schritt ist erforderlich, um die Analyse des Seitenlayouts zu verbessern, eine bessere Erkennungsqualität für unterstrichenen Text zu erzielen, Tabellen usw. zu erkennen.

Seitenlayoutanalyse. In diesem Schritt versuche ich, die im Bild vorhandenen Textbereiche zu identifizieren. Damit wird nur dieser Teil zur Erkennung verwendet und der Rest der Region weggelassen.

Erkennung von Textzeilen und Wörtern. Hier müssen wir auch auf unterschiedliche Schriftgrößen und kleine Abstände zwischen Wörtern achten.

Zeichenerkennung. Dies ist der Hauptalgorithmus von OCR. Ein Bild jedes Zeichens muss in den entsprechenden Zeichencode konvertiert werden. Manchmal erzeugt dieser Algorithmus mehrere Zeichencodes für unsichere Bilder. Zum Beispiel kann das Erkennen des Bildes des "I" -Charakters "I", "|" Die Codes "1", "l" und der endgültige Zeichencode werden später ausgewählt.

Speichern der Ergebnisse im ausgewählten Ausgabeformat, z. B. durchsuchbares PDF, DOC, RTF, TXT. Es ist wichtig, das ursprüngliche Seitenlayout zu speichern: Spalten, Schriftarten, Farben, Bilder, Hintergrund usw.

Also brauche ich Hilfe in Teil6. Ich habe den Zeilendetektionsteil abgeschlossen (n Bilder aus einem Absatz mit n Zeilen erhalten), aber im nächsten Teil stecke ich fest und erhalte die Wort- und Zeichenerkennung Hier.

Zur Zeichenerkennung denke ich an asprise (Java-Bibliothek)http://asprise.com/product/ocr/index.php?lang=java