Jak mogę wyodrębnić tekst z pliku PDF w Perlu?

Question

Jul 16, 2009, 01:39 PM

Jak mogę wyodrębnić tekst z pliku PDF w Perlu?

Próbuję wyodrębnić tekst z plików PDF za pomocą Perla. Używampdftotext.exe z linii poleceń (tzn. używając Perlasystem funkcja) do wyodrębniania tekstu z plików PDF, ta metoda działa dobrze.

Problem polega na tym, że w plikach PDF mamy symbole takie jak α, β i inne znaki specjalne, które nie są wyświetlane w wygenerowanym pliku txt. W tekście jest losowo dodawanych kilka dodatkowych spacji.

Czy istnieje lepszy i bardziej niezawodny sposób wyodrębniania tekstu z plików PDF, aby tekst zawierał wszystkie symbole, takie jak α, β itp., A tekst będzie dokładnie pasował do tekstu w pliku PDF (tj. Bez dodatkowych spacji)?