Использование PDFbox для определения координат слов в документе

Question

Aug 08, 2012, 11:56 PM

Использование PDFbox для определения координат слов в документе

Я использую PDFbox для извлечения координат слов / строк в документе PDF и до сих пор успешно определял положение отдельных символов. этот код пока что из документа PDFbox:

package printtextlocations;

import java.io.*;
import org.apache.pdfbox.exceptions.InvalidPasswordException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.TextPosition;

import java.io.IOException;
import java.util.List;

public class PrintTextLocations extends PDFTextStripper {

    public PrintTextLocations() throws IOException {
        super.setSortByPosition(true);
    }

    public static void main(String[] args) throws Exception {

        PDDocument document = null;
        try {
            File input = new File("C:\\path\\to\\PDF.pdf");
            document = PDDocument.load(input);
            if (document.isEncrypted()) {
                try {
                    document.decrypt("");
                } catch (InvalidPasswordException e) {
                    System.err.println("Error: Document is encrypted with a password.");
                    System.exit(1);
                }
            }
            PrintTextLocations printer = new PrintTextLocations();
            List allPages = document.getDocumentCatalog().getAllPages();
            for (int i = 0; i < allPages.size(); i++) {
                PDPage page = (PDPage) allPages.get(i);
                System.out.println("Processing page: " + i);
                PDStream contents = page.getContents();
                if (contents != null) {
                    printer.processStream(page, page.findResources(), page.getContents().getStream());
                }
            }
        } finally {
            if (document != null) {
                document.close();
            }
        }
    }

    /**
     * @param text The text to be processed
     */
    @Override /* this is questionable, not sure if needed... */
    protected void processTextPosition(TextPosition text) {
        System.out.println("String[" + text.getXDirAdj() + ","
                + text.getYDirAdj() + " fs=" + text.getFontSize() + " xscale="
                + text.getXScale() + " height=" + text.getHeightDir() + " space="
                + text.getWidthOfSpace() + " width="
                + text.getWidthDirAdj() + "]" + text.getCharacter());
    }
}

Это создает ряд строк, содержащих позицию каждого символа, включая пробелы, которые выглядят так:

String[202.5604,41.880127 fs=1.0 xscale=13.98 height=9.68814 space=3.8864403 width=9.324661]P

Где «P» это персонаж. Мне не удалось найти функцию в PDFbox для поиска слов, и я недостаточно знаком с Java, чтобы иметь возможность точно объединять эти символы обратно в слова для поиска, даже при наличии пробелов. Кто-нибудь еще был в подобной ситуации, и если да, то как вы к ней подошли? Мне действительно нужна только координата первого символа в слове, чтобы упростить части, но я не могу понять, как я собираюсь сопоставить строку с таким выводом.

Использование PDFbox для определения координат слов в документе

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Использование PDFbox для определения координат слов в документе

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы