Como extrair texto de um arquivo docx existente usando python-docx
Estou tentando usarpython-docx
módulo (pip install python-docx
), mas parece muito confuso, como emrepositório github amostra de teste que eles estão usandoopendocx
função, mas emreadthedocs eles estão usandoDocument
classe. Mesmo eles estão apenas mostrando como adicionar texto a um arquivo docx que não está lendo um existente?
1º (opendocx
) não está funcionando, pode ser preterido. Para o segundo caso, eu estava tentando usar:
from docx import Document
document = Document('test_doc.docx')
print document.paragraphs
Ele retornou uma lista de<docx.text.Paragraph object at 0x... >
Então eu fiz:
for p in document.paragraphs:
print p.text
Ele retornou todo o texto, mas havia poucas coisas faltando. Todos os URLs (CTRL + CLIQUE para acessar o URL) não estavam presentes no texto no console.
Qual é o problema? Por que os URLs estão ausentes?
Como obter texto completo sem repetir o loop (algo comoopen().read()
)