Экспорт вывода HOCR для Тессеракт OCR в Android
Я пытался использоватьТесс-два, ответвление Tesseract Tools для Android. Я хочу включитьhocr
вывод в тессеракт, из этогоссылкаЯ пытался установить переменнуюtessedit_create_hocr
как правда, но я не вижу hocr в выводе. Вот моя попытка:
baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setVariable("tessedit_create_hocr", "1")
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();
Кто-то сказалhocr
вывод должен быть в папке config или в папке с изображением, но я ничего не вижу. Любой, я не знаю, как настроить имя файла и расположение вывода Hocr.
Другое дело: есть ли способ применить конфигурационный файл в Tesseract Tools для Android? Я положил файлы конфигурации впапка tessdata / config, но ничего не случилось. Как сказатьtesseract
следует прочитать эти файлы конфигурации? Кажется, им не хватает документов для Android.
Обновить: Благодаря@nguyenq
теперь я могу получитьHOCR
данные. Вот моя попытка:
jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
jobject thiz, jint page) {
native_data_t *nat = get_native_data(env, thiz);
char *text = nat->api.GetHOCRText(page);
jstring result = env->NewStringUTF(text);
free(text);
return result;
}