¿Cómo uso pdfminer como biblioteca

Question

Apr 20, 2011, 05:50 AM

¿Cómo uso pdfminer como biblioteca

Estoy tratando de obtener datos de texto de un pdf usando pdfminer. Puedo extraer estos datos a un archivo .txt con éxito con la herramienta de línea de comandos pdfminer pdf2txt.py. Actualmente hago esto y luego uso un script de Python para limpiar el archivo .txt. Me gustaría incorporar el proceso de extracción de pdf en el script y ahorrarme un paso.

Pensé que estaba en algo cuando encontré este enlace, pero no tuve éxito con ninguna de las soluciones. Quizás la función enumerada allí deba actualizarse nuevamente porque estoy usando una versión más nueva de pdfminer.

También probé la función que se muestra aquí, pero tampoco funcionó.

Otro enfoque que intenté fue llamar al script dentro de un script usandoos.system. Esto tampoco tuvo éxito.

Estoy usando Python versión 2.7.1 y pdfminer versión 20110227.