Cómo extraer texto de un archivo docx existente usando python-docx

Question

Aug 10, 2014, 01:24 PM

python python-2.7 python-3.x python-docx

Cómo extraer texto de un archivo docx existente usando python-docx

Estoy tratando de usarpython-docx módulo (pip install python-docx) pero parece ser muy confuso como enrepositorio github muestra de prueba que están utilizandoopendocx funcionar pero enreadthedocs ellos están usandoDocument clase. ¿Incluso solo muestran cómo agregar texto a un archivo docx que no lee uno existente?

1er (opendocx) no funciona, puede quedar en desuso. Para el segundo caso, estaba tratando de usar:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Devuelve una lista de<docx.text.Paragraph object at 0x... >

Entonces hice:

for p in document.paragraphs:
    print p.text

Devolvió todo el texto, pero faltaban pocas cosas. Todas las URL (CTRL + CLIC para ir a la URL) no estaban presentes en el texto de la consola.

¿Cual es el problema? ¿Por qué faltan las URL?

¿Cómo podría obtener el texto completo sin iterar sobre el bucle (algo comoopen().read())

Respuestas a la pregunta(8)

Preguntas populares

0 la respuesta

Botón de Android cambiando de color en onClick?

0 la respuesta

¿Maven-failafe-plugin Failures and BUILD SUCCESS?

0 la respuesta

Entity Framework subconsulta

0 la respuesta

Permitir la apertura de archivos locales en la aplicación de Android HTML5 Phonegapped

0 la respuesta

¿Cómo puedo determinar el tamaño de la ventana del navegador en el lado del servidor C #?

¡Eres muy activo! ¡Es genial!

Cómo extraer texto de un archivo docx existente usando python-docx

Respuestas a la pregunta(8)

Su respuesta a la pregunta

Preguntas populares