ler um arquivo MSWord em R

É possível ler um arquivo do MSWord 2010 em R? Eu tenho o Windows 7 e um PC da Dell.

Eu estou usando a linha:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

para tentar ler um arquivo MSWord contendo o seguinte texto:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Eu recebo uma mensagem de aviso que diz:

Mensagem de aviso: Em readLines ("c: / users / mark w miller / programas R simples / test_for_r.docx"): linha final incompleta encontrada em 'c: / users / mark w miller / programas R simples / test_for_r.docx'

emy.data parece ser rabugento:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

Eu sei que com este exemplo simples eu poderia facilmente converter o arquivo MSWord para um formato diferente. No entanto, meus arquivos de dados reais consistem em tabelas complexas que foram digitadas décadas atrás e depois digitalizadas em documentos PDF posteriormente. A idade do documento em papel original e talvez imperfeições no papel original, digitação e / ou processo de digitalização resultou em algumas letras e números não sendo muito claros. Até agora, converter os arquivos pdf para MSWord parece ser o mais bem sucedido em traduzir corretamente as tabelas. Convertendo os arquivos MSWord para Excel ou rich text, etc, não tem sido muito bem sucedido. Mesmo após a conversão para o MSWord, os arquivos resultantes são muito complexos e contêm numerosos erros. Eu pensei que se eu pudesse ler os arquivos do MSWord em R, poderia ser a maneira mais eficiente de editá-los e corrigi-los.

Estou ciente de 'pacote tm' que eu acho que pode ler arquivos MSWord em R, mas estou um pouco preocupado em usá-lo porque parece exigir a instalação de software de terceiros.

Obrigado por qualquer sugestão.

questionAnswers(3)

yourAnswerToTheQuestion