Como extrair texto de um arquivo docx existente usando python-docx

Question

Aug 10, 2014, 01:24 PM

python-3.x python python-2.7 python-docx

Como extrair texto de um arquivo docx existente usando python-docx

Estou tentando usarpython-docx módulo (pip install python-docx), mas parece muito confuso, como emrepositório github amostra de teste que eles estão usandoopendocx função, mas emreadthedocs eles estão usandoDocument classe. Mesmo eles estão apenas mostrando como adicionar texto a um arquivo docx que não está lendo um existente?

1º (opendocx) não está funcionando, pode ser preterido. Para o segundo caso, eu estava tentando usar:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Ele retornou uma lista de<docx.text.Paragraph object at 0x... >

Então eu fiz:

for p in document.paragraphs:
    print p.text

Ele retornou todo o texto, mas havia poucas coisas faltando. Todos os URLs (CTRL + CLIQUE para acessar o URL) não estavam presentes no texto no console.

Qual é o problema? Por que os URLs estão ausentes?

Como obter texto completo sem repetir o loop (algo comoopen().read())