Biblioteki do parsowania plików PDF, PostScript i / lub DjVu

Question

Jul 21, 2009, 10:04 PM

Biblioteki do parsowania plików PDF, PostScript i / lub DjVu

To, co chcę zrobić, jest całkiem proste: biorąc pod uwagę plik PDF / PS / DjVu zawierający papier / książkę, znajdź autorów i tytuł pracy (wszystkie inne metadane byłyby dobre, ale mniej potrzebne). To rozpoznanie nie musi być idealne, ale chciałbym, aby było jak najlepiej. Szukam bibliotek open-source .NET i / lub Java (najlepiej .NET), które umożliwiają dostęp do metadanych i zawartości tych plików.

Dla PDF znalazłemPDFBox (.NET / Java) iBiblioteka PDF (.NET), ale mogą istnieć lepsze alternatywy, których nie znam; dla Postscript i DjVu nic nie znalazłem.