Puxando dados do MS Word com pywin32

Estou executando o python 3.3 no Windows e preciso extrair strings de documentos do Word. Tenho pesquisado por toda a parte por aproximadamente uma semana sobre o melhor método para fazer isso. Originalmente eu tentei salvar os arquivos .docx como .txt e analisar usando RE, mas eu tive alguns problemas de formatação com caracteres ocultos - eu estava usando um script para abrir um .docx e salvar como .txt. Eu estou querendo saber se eu fiz um bom arquivo> SaveAs> .txt seria retirar a formatação ímpar e então eu poderia analisar adequadamente? Eu não sei, mas desisti desse método.

Eu tentei usar omódulo docx mas me disseram que não é compatível com o python 3.3. Então fico com o pywin32 e o COM. Eu usei isso com êxito com o Excel para obter os dados que eu preciso, mas estou tendo problemas com o Word porque há muito menos documentação elendo através do modelo de objeto no site da Microsoft está sobre a minha cabeça.

Aqui está o que eu tenho até agora para abrir o (s) documento (s):

import win32com.client as win32
import glob, os

word = win32.gencache.EnsureDispatch('Word.Application')
word.Visible = True

for infile in glob.glob(os.path.join(r'mypath', '*.docx')):
    print(infile)
    doc = word.Documents.Open(infile)

Então, neste momento, posso fazer algo como

print(doc.Content.Text) 

E ver o conteúdo dos arquivos, mas ainda parece que há alguma formatação estranha lá e eu não tenho idéia de como realmente analisar para pegar os dados que eu preciso. Eu posso criar REs que encontrarão com sucesso as strings que estou procurando, eu não sei como implementá-las no programa usando o COM.

O código que eu tenho até agora foi encontrado principalmente pelo Google. Eu nem acho que isso é tão difícil, é só que a leitura através do modelo de objeto no site da Microsoft é como ler uma língua estrangeira. Qualquer ajuda é muito apreciada. Obrigado.

Edit: código que eu estava usando para salvar os arquivos do docx para o txt:

for path, dirs, files in os.walk(r'mypath'):
    for doc in [os.path.abspath(os.path.join(path, filename)) for filename in files if fnmatch.fnmatch(filename, '*.docx')]:
        print("processing %s" % doc)
        wordapp.Documents.Open(doc)
        docastxt = doc.rstrip('docx') + 'txt'
        wordapp.ActiveDocument.SaveAs(docastxt,FileFormat=win32com.client.constants.wdFormatText)
        wordapp.ActiveDocument.Close()

questionAnswers(2)

yourAnswerToTheQuestion