ler um arquivo MSWord em R
É possível ler um arquivo do MSWord 2010 em R? Eu tenho o Windows 7 e um PC da Dell.
Eu estou usando a linha:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
para tentar ler um arquivo MSWord contendo o seguinte texto:
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
Eu recebo uma mensagem de aviso que diz:
Mensagem de aviso: Em readLines ("c: / users / mark w miller / programas R simples / test_for_r.docx"): linha final incompleta encontrada em 'c: / users / mark w miller / programas R simples / test_for_r.docx'
emy.data
parece ser rabugento:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
Eu sei que com este exemplo simples eu poderia facilmente converter o arquivo MSWord para um formato diferente. No entanto, meus arquivos de dados reais consistem em tabelas complexas que foram digitadas décadas atrás e depois digitalizadas em documentos PDF posteriormente. A idade do documento em papel original e talvez imperfeições no papel original, digitação e / ou processo de digitalização resultou em algumas letras e números não sendo muito claros. Até agora, converter os arquivos pdf para MSWord parece ser o mais bem sucedido em traduzir corretamente as tabelas. Convertendo os arquivos MSWord para Excel ou rich text, etc, não tem sido muito bem sucedido. Mesmo após a conversão para o MSWord, os arquivos resultantes são muito complexos e contêm numerosos erros. Eu pensei que se eu pudesse ler os arquivos do MSWord em R, poderia ser a maneira mais eficiente de editá-los e corrigi-los.
Estou ciente de 'pacote tm' que eu acho que pode ler arquivos MSWord em R, mas estou um pouco preocupado em usá-lo porque parece exigir a instalação de software de terceiros.
Obrigado por qualquer sugestão.