Извлечение текста из PDF-файлов в C #
Проще говоря, мне нужно копировать текст из нескольких PDF-файлов (на самом деле, довольно много), чтобы проанализировать содержимое, прежде чем помещать его в базу данных SQL.I '
мы нашли несколько довольно схематичных бесплатных библиотек C # такого рода работы (лучшая из которых использует iTextSharp), но есть множество ошибок форматирования, и некоторые символы шифруются, и во многих случаях есть пробелы (' ') ВЕЗДЕ - внутри слов, между каждой буквой, огромные блоки которых занимают несколько строк, все это кажется немного случайным.
Есть ли простой способ сделать это, что яЯ полностью упускаю из виду (весьма вероятно!) или это немного трудная задача, которая включает в себя надежное преобразование извлеченных значений байтов в буквы?