Tesseract OCR: Rozpoznaje tylko pełne słowa słownika

Question

Dec 15, 2013, 10:02 PM

Tesseract OCR: Rozpoznaje tylko pełne słowa słownika

Używam wtyczki OCR tesseract dla mapy telefonicznej:https://github.com/jcesarmobile/PhonegapOCRPlugin/i

Próbuję skonfigurować tesseract do rozpoznawania tylko pełnych słów słownika. Oznacza to: brak znaków specjalnych, brak przyrostków lub prefiksów itp.

Ponieważ folder tessdata z tego projektu nie zawiera żadnych konfiguracji, pomyślałem, że ustawię config na init. W tej chwili próbuję ustawić configs modyfikując claseAuxiliar.mm, ale nie mogę powiedzieć, że zauważyłem jakąkolwiek różnicę, może to być spowodowane błędem konfiguracji lub błędem ich ustawienia. Poniżej znajdują się moje konfiguracje i sposób, w jaki obecnie próbuję je ustawić:

    // init the tesseract engine.
    tesseract = new tesseract::TessBaseAPI();
    tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], "eng");
    if (!tesseract->SetVariable("segment_penalty_dict_nonword","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("segment_penalty_garbage","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("stopper_nondict_certainty_base","-100"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_freq_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("GARBAGE_STRING","5"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("NON_WERD","5"))
    printf("Setting variable failed!!!\n");