Tesseract OCR: Nur vollständige Wörter im Wörterbuch erkennen

Question

Dec 15, 2013, 10:02 PM

Tesseract OCR: Nur vollständige Wörter im Wörterbuch erkennen

Ich benutze das Tesseract OCR Plugin für Phonegap:https://github.com/jcesarmobile/PhonegapOCRPlugin/i

Ich versuche, Tesseract so zu konfigurieren, dass nur vollständige Wörter des Wörterbuchs erkannt werden. Das heißt: keine Sonderzeichen, keine Suffixe oder Präfixe etc.

Da der tessdata-Ordner aus diesem Projekt keine Configs enthält, dachte ich, ich würde Configs auf init setzen. Im Moment versuche ich, Configs durch Ändern von claseAuxiliar.mm zu setzen, aber ich kann nicht sagen, dass ich einen Unterschied bemerkt habe. Dies kann daran liegen, dass die Configs falsch sind oder dass ich sie falsch einstelle. Unten sind meine Einstellungen und wie ich sie gerade einstelle:

    // init the tesseract engine.
    tesseract = new tesseract::TessBaseAPI();
    tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], "eng");
    if (!tesseract->SetVariable("segment_penalty_dict_nonword","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("segment_penalty_garbage","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("stopper_nondict_certainty_base","-100"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_freq_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("GARBAGE_STRING","5"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("NON_WERD","5"))
    printf("Setting variable failed!!!\n");