ler e digitalizar arquivos .doc do MS Word em R

Eu tenho um grande conjunto de arquivos .doc que fornecem as variáveis ​​disponíveis em um conjunto de conjuntos de dados correspondentes. Eu gostaria de verificar através deles em R e ver quais conjuntos de dados contêm uma variável de interesse. Eu fiz isso antes em arquivos de texto simples usando readLines, mas isso não funciona em arquivos .doc.

Eu fiz o download do pacote tm que deve ser capaz de ler arquivos .doc usando o comando readDOC, mas as instruções são bastante limitadas e não consigo fazê-lo funcionar. Alguém sabe como usar o comando readDOC ou tem outra sugestão de como fazer isso em R? Obrigado!

Muito obrigado a todos pelas respostas e sugestões. Eu pensei R pode ser configurado para ler em arquivos doc muito facilmente, mas pelo que você diz eu acho que a coisa mais fácil é converter todos os arquivos de palavras para outro formato primeiro. Acabei de baixar alguns softwares gratuitos chamados 'Convert Doc', onde armazeno todos os documentos do Word em uma pasta e os coloco em arquivos .txt muito rapidamente. Agora posso automatizar a busca, pois tenho cerca de 100 arquivos de dados com documentos de acompanhamento que especificam a codificação da variável, que nem sempre é a mesma em cada arquivo de dados (por exemplo, sim / não, alguns usam 0/1, outros usam 1/2) então isso me permite encontrar a variável certa e armazenar sua codificação usando readLines, grep e um pouco mais de processamento de texto. Obrigado!

questionAnswers(2)

yourAnswerToTheQuestion