Wyodrębnianie informacji z plików PDF dokumentów naukowych [zamknięte]

Question

Nov 28, 2009, 08:03 PM

Wyodrębnianie informacji z plików PDF dokumentów naukowych [zamknięte]

Potrzebuję mechanizmu wyodrębniania metadanych bibliograficznych z dokumentów PDF, aby zapisać ludzi wchodzących do niego ręcznie lub wycinać i wklejać.

Co najmniej tytuł i streszczenie. Lista autorów i ich powiązań byłaby dobra. Wydobycie referencji byłoby niesamowite.

Idealnie byłoby to rozwiązanie typu open source.

Problem polega na tym, że nie wszystkie pliki PDF kodują tekst, a wiele z nich nie zachowuje logicznego porządku tekstu, więc samo wykonanie pdf2text daje wiersz 1 kolumny 1, wiersz 1 kolumny 2, wiersz 2 kolumny 1 itd.

Wiem, że jest wiele bibliotek. Identyfikuje streszczenie, autorów tytułów itp. Na dokumencie, który muszę rozwiązać. To nigdy nie będzie możliwe za każdym razem, ale 80% zaoszczędzi wiele wysiłku ludzkiego.