обработка изображений для повышения точности распознавания текста

Question

Feb 28, 2012, 11:12 AM

обработка изображений для повышения точности распознавания текста

Я использовал tesseract для преобразования документов в текст. Качество документов колеблется в широких пределах, и я ищу советы о том, какая обработка изображений может улучшить результаты. Я заметил, что текст с высокой пикселизацией - например, сгенерированный факсимильными аппаратами - особенно трудно обрабатывать тессерактом - по-видимому, все эти неровные края символов смешивают алгоритмы распознавания формы.

Какие методы обработки изображений позволят повысить точность? Я использовал размытие по Гауссу для сглаживания пикселизированных изображений и заметил небольшое улучшение, но я надеюсь, что есть более специфическая методика, которая даст лучшие результаты. Скажем, фильтр, настроенный на черно-белые изображения, который сгладил бы неровные края, а затем фильтр, который увеличил бы контраст, чтобы сделать символы более четкими.

Какие-нибудь общие советы для тех, кто является новичком в обработке изображений?

обработка изображений для повышения точности распознавания текста

Ответы на вопрос(12)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

обработка изображений для повышения точности распознавания текста

Ответы на вопрос(12)

Ваш ответ на вопрос

Популярные вопросы