прочитать файл MSWord в R

Можно ли прочитать файл MSWord 2010 в R? У меня Windows 7 и компьютер Dell.

Я использую строку:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

попытаться прочитать файл MSWord, содержащий следующий текст:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Я получаю предупреждающее сообщение:

Предупреждающее сообщение: В readLines (& quot; c: / users / mark w miller / simple R Programs / test_for_r.docx & quot;):   найдена неполная последняя строка в & quot; c: / users / mark w miller / simple R Programs / test_for_r.docx & apos;

а такжеmy.data кажется бредом:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

На этом простом примере я знаю, что могу легко преобразовать файл MSWord в другой формат. Однако мои настоящие файлы данных состоят из сложных таблиц, которые были напечатаны десятилетия назад, а затем отсканированы в PDF-документы. Возраст оригинального бумажного документа и, возможно, недостатки в оригинальной бумаге, процесс печати и / или сканирования привели к тому, что некоторые буквы и цифры были не очень четкими. Пока что преобразование PDF-файлов в MSWord представляется наиболее успешным при правильном переводе таблиц. Преобразование файлов MSWord в Excel или форматированный текст и т. Д. Не было очень успешным. Даже после преобразования в MSWord полученные файлы очень сложны и содержат многочисленные ошибки. Я подумал, что если бы я мог прочитать файлы MSWord в R, это могло бы быть наиболее эффективным способом их редактирования и исправления.

Мне известно о «пакете тм» Я думаю, что он может читать файлы MSWord в R, но я немного обеспокоен его использованием, потому что, кажется, требует установки стороннего программного обеспечения.

Спасибо за любые предложения.

Ответы на вопрос(3)

Ваш ответ на вопрос