leer un archivo MSWord en R

¿Es posible leer un archivo de MSWord 2010 en R? Tengo Windows 7 y una PC de Dell.

Estoy usando la línea:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

para intentar leer un archivo de MSWord que contenga el siguiente texto:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Recibo un mensaje de advertencia que dice:

Mensaje de advertencia: en readLines ("c: / users / mark w miller / simple R programs / test_for_r.docx"): línea final incompleta encontrada en 'c: / users / mark w miller / simple R programs / test_for_r.docx'

ymy.data Parece ser un galimatías:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

Sé que con este sencillo ejemplo podría convertir fácilmente el archivo MSWord a un formato diferente. Sin embargo, mis archivos de datos reales consisten en tablas complejas que se escribieron hace décadas y luego se escanearon en documentos pdf más tarde. La antigüedad del documento original en papel y quizás las imperfecciones en el documento original, el proceso de mecanografía y / o escaneo ha dado lugar a que algunas letras y números no sean muy claros. Hasta ahora, convertir los archivos pdf a MSWord parece ser el más exitoso para traducir correctamente las tablas. La conversión de los archivos de MSWord a Excel o texto enriquecido, etc., no ha tenido mucho éxito. Incluso después de la conversión a MSWord, los archivos resultantes son muy complejos y contienen numerosos errores. Pensé que si podía leer los archivos de MSWord en R, esa podría ser la forma más eficiente de editarlos y corregirlos.

Soy consciente del 'paquete tm' que creo que puede leer archivos de MSWord en R, pero estoy un poco preocupado por su uso porque parece que requiere la instalación de software de terceros.

Gracias por cualquier sugerencia.

Respuestas a la pregunta(3)

Su respuesta a la pregunta