Cómo extraer texto de un archivo docx existente usando python-docx
Estoy tratando de usarpython-docx
módulo (pip install python-docx
) pero parece ser muy confuso como enrepositorio github muestra de prueba que están utilizandoopendocx
funcionar pero enreadthedocs ellos están usandoDocument
clase. ¿Incluso solo muestran cómo agregar texto a un archivo docx que no lee uno existente?
1er (opendocx
) no funciona, puede quedar en desuso. Para el segundo caso, estaba tratando de usar:
from docx import Document
document = Document('test_doc.docx')
print document.paragraphs
Devuelve una lista de<docx.text.Paragraph object at 0x... >
Entonces hice:
for p in document.paragraphs:
print p.text
Devolvió todo el texto, pero faltaban pocas cosas. Todas las URL (CTRL + CLIC para ir a la URL) no estaban presentes en el texto de la consola.
¿Cual es el problema? ¿Por qué faltan las URL?
¿Cómo podría obtener el texto completo sin iterar sobre el bucle (algo comoopen().read()
)