Экспорт вывода HOCR для Тессеракт OCR в Android
Я пытался использоватьТесс-два, ответвление Tesseract Tools для Android. Я хочу включитьhocr
вывод в тессеракт, из этогоссылка на сайтЯ пытался установить переменнуюtessedit_create_hocr
как правда, но я могуне вижу hocr в выводе. Вот моя попытка:
baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setVariable("tessedit_create_hocr", "1")
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();
Кто-то сказалhocr
вывод должен быть в папке конфигурации или в папке с изображением, но я неничего не вижу. Любой я нене знаю, как настроить имя файла и расположение вывода hocr.
Другое дело: есть ли способ применить конфигурационный файл в Tesseract Tools для Android? Я положил файлы конфигурации впапка tessdata / config, но ничего не случилось. Как сказатьtesseract
следует прочитать эти файлы конфигурации? Кажется, они нене хватает документов на андроид.
Обновить: Благодаря@nguyenq
теперь я могу получитьHOCR
данные. Вот моя попытка:
jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
jobject thiz, jint page) {
native_data_t *nat = get_native_data(env, thiz);
char *text = nat->api.GetHOCRText(page);
jstring result = env->NewStringUTF(text);
free(text);
return result;
}