Jak mogę wyodrębnić tekst z pliku PDF w Perlu?
Próbuję wyodrębnić tekst z plików PDF za pomocą Perla. Używampdftotext.exe
z linii poleceń (tzn. używając Perlasystem
funkcja) do wyodrębniania tekstu z plików PDF, ta metoda działa dobrze.
Problem polega na tym, że w plikach PDF mamy symbole takie jak α, β i inne znaki specjalne, które nie są wyświetlane w wygenerowanym pliku txt. W tekście jest losowo dodawanych kilka dodatkowych spacji.
Czy istnieje lepszy i bardziej niezawodny sposób wyodrębniania tekstu z plików PDF, aby tekst zawierał wszystkie symbole, takie jak α, β itp., A tekst będzie dokładnie pasował do tekstu w pliku PDF (tj. Bez dodatkowych spacji)?