Co to jest (cid: 51) w wynikach pdf2txt?

Question

May 13, 2013, 03:50 PM

Co to jest (cid: 51) w wynikach pdf2txt?

Próbuję wyodrębnić tekst z pliku pdf, potrzebuję jego położenia, szerokości, wysokości, czcionki.

Próbowałem wielu, ale wygląda na to, że najbardziej użyteczne i kompletne rozwiązaniePDFMineriw tym przypadku dokładniejpdf2txt.py.

Śledziłem dokument i przykłady i próbowałem wyodrębnić tekstLearn More z mojego pdf za pomocą tego polecenia:

pdf2txt.py -Y normal -t xml -o buttons.xml buttons.pdf

I wyjściebuttons.xml na to wygląda:

<?xml version="1.0" encoding="utf-8" ?>
  <pages>
      <page id="1" bbox="0.000,0.000,799.900,449.944" rotate="0">
      <textbox id="0" bbox="164.979,213.240,247.680,235.944">
          <textline bbox="164.979,213.240,247.680,235.944">
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="164.979,213.240,178.978,235.944" size="22.704">(cid:51)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="173.280,213.240,187.278,235.944" size="22.704">(cid:76)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="181.315,213.240,195.313,235.944" size="22.704">(cid:72)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="189.350,213.240,203.348,235.944" size="22.704">(cid:89)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="194.795,213.240,208.793,235.944" size="22.704">(cid:85)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="203.096,213.240,217.094,235.944" size="22.704">(cid:3)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="206.987,213.240,220.986,235.944" size="22.704">(cid:52)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="219.684,213.240,233.682,235.944" size="22.704">(cid:86)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="228.237,213.240,242.235,235.944" size="22.704">(cid:89)</text>
              <text font="KZNUUP+HelveticaNeue-Bold" bbox="233.682,213.240,247.680,235.944" size="22.704">(cid:76)</text>
              <text></text>
          </textline>
          </textbox>
          <textgroup bbox="164.979,213.240,419.659,235.944">
              <textbox id="0" bbox="164.979,213.240,247.680,235.944" />
          </textgroup>
      </page>
  </pages>

Pierwszy znak powinien być literą L i 51(cid:51) wydaje się, że nie pasuje do żadnej postaci, którą mam w moim zdaniu, w odniesieniu dostół ascii itabela utf-8

Tak jak mówi tytuł, zastanawiam się, co to jest i jak z nich korzystać(cid:51)... ?

EDYTOWAĆ

Odkryłem więc, że zamiast pobierać prawdziwy znak, program zapisuje (cid:% d), ponieważ nie rozpoznaje, że jest to ciąg Unicode.

Najpierw wywołuje tę funkcję, aby napisać znak:

def render_char(self, matrix, font, fontsize, scaling, rise, cid):
    try:
        text = font.to_unichr(cid)
        assert isinstance(text, unicode), text
    except PDFUnicodeNotDefined:
        text = self.handle_undefined_char(font, cid)

Aleassert zawieść i wystrzelić zdarzeniePDFUnicodeNotDefined który został złapany i dzwoni:

def handle_undefined_char(self, font, cid):
    if self.debug:
        print >>sys.stderr, 'undefined: %r, %r' % (font, cid)
    return '(cid:%d)' % cid

I tak kończę na pliku zawierającym wszystkie te pliki (cid:% d).

Jestem dość nowy w pythonie i staram się znaleźć sposób na rozpoznanie tych znaków, to powinno być jedno nie? Czy ktoś ma jakiś pomysł?