прочитать файл MSWord в R
Можно ли прочитать файл MSWord 2010 в R? У меня Windows 7 и компьютер Dell.
Я использую строку:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
попытаться прочитать файл MSWord, содержащий следующий текст:
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
Я получаю предупреждающее сообщение:
Предупреждающее сообщение: В readLines (& quot; c: / users / mark w miller / simple R Programs / test_for_r.docx & quot;): найдена неполная последняя строка в & quot; c: / users / mark w miller / simple R Programs / test_for_r.docx & apos;
а такжеmy.data
кажется бредом:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
На этом простом примере я знаю, что могу легко преобразовать файл MSWord в другой формат. Однако мои настоящие файлы данных состоят из сложных таблиц, которые были напечатаны десятилетия назад, а затем отсканированы в PDF-документы. Возраст оригинального бумажного документа и, возможно, недостатки в оригинальной бумаге, процесс печати и / или сканирования привели к тому, что некоторые буквы и цифры были не очень четкими. Пока что преобразование PDF-файлов в MSWord представляется наиболее успешным при правильном переводе таблиц. Преобразование файлов MSWord в Excel или форматированный текст и т. Д. Не было очень успешным. Даже после преобразования в MSWord полученные файлы очень сложны и содержат многочисленные ошибки. Я подумал, что если бы я мог прочитать файлы MSWord в R, это могло бы быть наиболее эффективным способом их редактирования и исправления.
Мне известно о «пакете тм» Я думаю, что он может читать файлы MSWord в R, но я немного обеспокоен его использованием, потому что, кажется, требует установки стороннего программного обеспечения.
Спасибо за любые предложения.