Tesseract OCR: Reconoce solo palabras completas del diccionario

Question

Dec 15, 2013, 10:02 PM

Tesseract OCR: Reconoce solo palabras completas del diccionario

Estoy usando el complemento de OCR tesseract para phonegap:https://github.com/jcesarmobile/PhonegapOCRPlugin/i

Estoy tratando de configurar tesseract para que reconozca solo palabras completas del diccionario. Es decir: sin caracteres especiales, ni sufijos ni prefijos, etc.

Como la carpeta tessdata de este proyecto no contiene ninguna configuración, pensé que debería establecer configuraciones en init. En este momento estoy tratando de establecer configuraciones modificando claseAuxiliar.mm pero no puedo decir que haya notado ninguna diferencia, esto podría deberse a que las configuraciones son incorrectas o que las estoy configurando mal. A continuación están mis configuraciones y cómo intento configurarlas actualmente:

    // init the tesseract engine.
    tesseract = new tesseract::TessBaseAPI();
    tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], "eng");
    if (!tesseract->SetVariable("segment_penalty_dict_nonword","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("segment_penalty_garbage","10"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("stopper_nondict_certainty_base","-100"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("language_model_penalty_non_freq_dict_word","1"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("GARBAGE_STRING","5"))
    printf("Setting variable failed!!!\n");
    if (!tesseract->SetVariable("NON_WERD","5"))
    printf("Setting variable failed!!!\n");

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

asignar la variable de clase como valor predeterminado al argumento del método de clase

0 la respuesta

R: aplique lm en cada fila del marco de datos

0 la respuesta

Desacoplar unidad de trabajo de servicios o repo.

0 la respuesta

Los elementos del menú contextual del Kit de herramientas de Windows Phone tienen un objeto incorrecto vinculado a ellos cuando se quita un elemento y luego se agrega

0 la respuesta

Reemplace los caracteres Unicode en PostgreSQL

¡Eres muy activo! ¡Es genial!

Tesseract OCR: Reconoce solo palabras completas del diccionario

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares