Как сохранить структуру документа в тессеракте
Я использую Tesseract OCR для извлечения текста из изображения. Сохранение структуры документа очень важно для меня. В настоящее время тессеракт не сохраняет структуру, а изменяет порядок текста. Мой вход - изображение ниже.
и вывод я получаю следующим образом:
Someto the left
Someto the left
Some in the middle
Some in the middle
Some with some tab
Some with some tab
Some with some space between them
Some with some space between them
Sometext here
Sometext here
this much
this much
Как получить желаемый результат с той же структурой на изображении?
то есть следующим образом:
Some text here
Some text here
Some to the left
Some to the left
Some in the middle
Some in the middle
Some with some tab
Some with some tab
Some with some space between them this much
Some with some space between them this much