чтение и сканирование файлов MS Word .doc в R

У меня есть большой набор файлов .doc, которые дают переменные, доступные в наборе соответствующих наборов данных. Я хотел бы просмотреть их в R и посмотреть, какие наборы данных содержат интересующую переменную. Я делал это раньше на простых текстовых файлах, используя readLines, но это не работает с файлами .doc.

Я скачал пакет tm, который должен иметь возможность читать файлы .doc с помощью команды readDOC, но инструкции довольно ограничены, и я могузаставить его работать. Кто-нибудь знает, как использовать команду readDOC или есть другое предложение о том, как сделать это в R? Спасибо!

Большое спасибо всем за ответы и предложения. Я думал, что R может быть настроен на чтение файлов .doc довольно легко, но из того, что вы говорите, я думаю, что проще всего сначала преобразовать все файлы слов в другой формат. Я'Я только что скачал бесплатное программное обеспечение под названием 'Конвертировать Док ' где я храню все текстовые документы в одной папке и очень быстро помещаю их в текстовые файлы. Теперь я могу автоматизировать поиск, поскольку у меня есть около 100 файлов данных с сопроводительными документами слов, которые задают переменную кодировку, которая не всегда одинакова в каждом файле данных (например, для да / нет, некоторые используют 0/1, другие используют 1/2) так что это позволяет мне найти правильную переменную и сохранить ее кодирование, используя readLines, grep и немного больше обработки текста. Спасибо!

Ответы на вопрос(2)

Ваш ответ на вопрос