Usando o PDFbox para determinar as coordenadas das palavras em um documento

Question

Aug 08, 2012, 11:56 PM

Usando o PDFbox para determinar as coordenadas das palavras em um documento

Estou usando o PDFbox para extrair as coordenadas de palavras / strings em um documento PDF e até agora tive sucesso em determinar a posição de caracteres individuais. este é o código até agora, do doc do PDFbox:

package printtextlocations;

import java.io.*;
import org.apache.pdfbox.exceptions.InvalidPasswordException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.TextPosition;

import java.io.IOException;
import java.util.List;

public class PrintTextLocations extends PDFTextStripper {

    public PrintTextLocations() throws IOException {
        super.setSortByPosition(true);
    }

    public static void main(String[] args) throws Exception {

        PDDocument document = null;
        try {
            File input = new File("C:\\path\\to\\PDF.pdf");
            document = PDDocument.load(input);
            if (document.isEncrypted()) {
                try {
                    document.decrypt("");
                } catch (InvalidPasswordException e) {
                    System.err.println("Error: Document is encrypted with a password.");
                    System.exit(1);
                }
            }
            PrintTextLocations printer = new PrintTextLocations();
            List allPages = document.getDocumentCatalog().getAllPages();
            for (int i = 0; i < allPages.size(); i++) {
                PDPage page = (PDPage) allPages.get(i);
                System.out.println("Processing page: " + i);
                PDStream contents = page.getContents();
                if (contents != null) {
                    printer.processStream(page, page.findResources(), page.getContents().getStream());
                }
            }
        } finally {
            if (document != null) {
                document.close();
            }
        }
    }

    /**
     * @param text The text to be processed
     */
    @Override /* this is questionable, not sure if needed... */
    protected void processTextPosition(TextPosition text) {
        System.out.println("String[" + text.getXDirAdj() + ","
                + text.getYDirAdj() + " fs=" + text.getFontSize() + " xscale="
                + text.getXScale() + " height=" + text.getHeightDir() + " space="
                + text.getWidthOfSpace() + " width="
                + text.getWidthDirAdj() + "]" + text.getCharacter());
    }
}

Isso produz uma série de linhas contendo a posição de cada caractere, incluindo espaços, que se parece com isso:

String[202.5604,41.880127 fs=1.0 xscale=13.98 height=9.68814 space=3.8864403 width=9.324661]P

Onde 'P' é o personagem. Eu não fui capaz de encontrar uma função no PDFbox para encontrar palavras, e eu não estou familiarizado o suficiente com Java para poder concatenar com precisão esses caracteres de volta em palavras para pesquisar, mesmo que os espaços também estejam incluídos. Alguém mais esteve em uma situação semelhante e, em caso afirmativo, como você abordou isso? Eu realmente só preciso da coordenada do primeiro caractere da palavra para que as partes sejam simplificadas, mas como eu vou combinar uma string com esse tipo de saída está além de mim.