Tesseract OCR: распознавать только полные словарные слова
Я использую плагин tesseract для распознавания текста:https://github.com/jcesarmobile/PhonegapOCRPlugin/i
Я пытаюсь настроить tesseract для распознавания только полных словарных слов. То есть: никаких специальных символов, никаких суффиксов или префиксов и т. Д.
Поскольку папка tessdata из этого проекта не содержит никаких конфигов, я решил установить конфиги в init. Прямо сейчас я пытаюсь установить конфиги, изменяя claseAuxiliar.mm, но не могу сказать, что заметил разницу, это может быть из-за того, что конфиги неправильные или я их неправильно устанавливаю. Ниже приведены мои настройки и то, как я сейчас пытаюсь их настроить:
// init the tesseract engine.
tesseract = new tesseract::TessBaseAPI();
tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], "eng");
if (!tesseract->SetVariable("segment_penalty_dict_nonword","10"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("segment_penalty_garbage","10"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("stopper_nondict_certainty_base","-100"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("language_model_penalty_non_dict_word","1"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("language_model_penalty_non_freq_dict_word","1"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("GARBAGE_STRING","5"))
printf("Setting variable failed!!!\n");
if (!tesseract->SetVariable("NON_WERD","5"))
printf("Setting variable failed!!!\n");