Wyodrębnianie informacji z plików PDF dokumentów naukowych [zamknięte]
Potrzebuję mechanizmu wyodrębniania metadanych bibliograficznych z dokumentów PDF, aby zapisać ludzi wchodzących do niego ręcznie lub wycinać i wklejać.
Co najmniej tytuł i streszczenie. Lista autorów i ich powiązań byłaby dobra. Wydobycie referencji byłoby niesamowite.
Idealnie byłoby to rozwiązanie typu open source.
Problem polega na tym, że nie wszystkie pliki PDF kodują tekst, a wiele z nich nie zachowuje logicznego porządku tekstu, więc samo wykonanie pdf2text daje wiersz 1 kolumny 1, wiersz 1 kolumny 2, wiersz 2 kolumny 1 itd.
Wiem, że jest wiele bibliotek. Identyfikuje streszczenie, autorów tytułów itp. Na dokumencie, który muszę rozwiązać. To nigdy nie będzie możliwe za każdym razem, ale 80% zaoszczędzi wiele wysiłku ludzkiego.