Wyodrębnianie tekstu z zniekształconego pliku PDF [zamknięte]

Question

Aug 29, 2012, 08:30 PM

Wyodrębnianie tekstu z zniekształconego pliku PDF [zamknięte]

Mam plik PDF z cennymi informacjami tekstowymi.

Problem polega na tym, że nie mogę wyodrębnić tekstu, otrzymuję tylko kilka zniekształconych symboli. To samo dzieje się, jeśli skopiuję i wkleję tekst z czytnika PDF do pliku tekstowego. ParzystyPlik -> Zapisz jako tekst w programie Acrobat Reader nie działa.

Użyłem wszystkich narzędzi, które mogłem zdobyć, a rezultat jest taki sam. Wierzę, że ma to coś wspólnego z osadzaniem czcionek, ale nie wiem co dokładnie?

Moje pytania:

Co jest winowajcą? tego dziwnegozniekształcanie tekstu?Jak wyodrębnić treść tekstową z pliku PDF (programowo, za pomocą narzędzia, bezpośrednie manipulowanie bitami itp.)?Jak naprawić plik PDF, aby nie nabijał się na kopię?

leaveComments