Wyodrębnianie tekstu z pliku PDF [zamknięte]
Muszę wyodrębnić tekst z pliku PDF. Ten tekst będzie prawdopodobnie w formacie tabeli i będzie używany do automatycznego przesyłania danych między stroną zewnętrzną a naszymi systemami.
Czy ktoś może zaproponować narzędzie linii poleceń (np. Pdf do txt) lub bibliotekę, która byłaby do tego przydatna?
Opcje językowe:
C # (preferowane)Java (jeśli muszę)Znalazłem tu kilka pomysłów, ale myślę, że facet mówił więcej o jednorazowej sytuacji, mówię bardziej jak codzienny import:
https://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files