Los espacios en blanco pasaron de la extracción de PDF y la extraña interpretación de palabras.

Question

Jun 18, 2012, 07:16 PM

Los espacios en blanco pasaron de la extracción de PDF y la extraña interpretación de palabras.

Usando el siguiente fragmento, he intentado extraer los datos de texto deesta Archivo PDF.

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

lossalida obtengoSin embargo, carece de espacios en blanco entre la mayoría de las palabras. Esto dificulta el procesamiento del lenguaje natural en el texto (mi objetivo final, aquí).

Además, el 'fi' en la palabra 'dedo' se interpreta consistentemente como otra cosa. Esto es bastante problemático, ya que este documento trata sobre movimientos espontáneos de los dedos ...

¿Alguien sabe por qué esto podría estar pasando? ¡Ni siquiera sé por dónde empezar!

Deja tu comentario