czytanie i skanowanie plików .doc MS Word w R

Mam duży zestaw plików .doc, które dają zmienne dostępne w zestawie odpowiednich zestawów danych. Chciałbym je przejrzeć w R i zobaczyć, które zestawy danych zawierają interesującą nas zmienną. Zrobiłem to wcześniej na zwykłych plikach tekstowych za pomocą readLines, ale to nie działa na plikach .doc.

Pobrałem pakiet tm, który powinien być w stanie odczytać pliki .doc za pomocą komendy readDOC, ale instrukcje są dość ograniczone i nie mogę go uruchomić. Czy ktoś wie, jak używać komendy readDOC lub czy ma inną sugestię, jak to zrobić w R? Dzięki!

Dziękuję bardzo wszystkim za odpowiedzi i sugestie. Sądziłem, że R może być skonfigurowany do czytania plików .doc dość łatwo, ale z tego, co mówisz, myślę, że najłatwiej jest najpierw przekonwertować wszystkie pliki tekstowe na inny format. Właśnie pobrałem jakieś darmowe oprogramowanie o nazwie „Convert Doc”, w którym przechowuję wszystkie dokumenty programu Word w jednym folderze i bardzo szybko umieszczam je w plikach .txt. Teraz mogę zautomatyzować wyszukiwanie, ponieważ mam około 100 plików danych z towarzyszącymi dokumentami tekstowymi, które określają kodowanie zmiennej, która nie zawsze jest taka sama w każdym pliku danych (np. Dla tak / nie, niektóre używają 0/1, inne używają 1/2) dzięki temu mogę znaleźć właściwą zmienną i przechowywać jej kodowanie za pomocą readLines, grep i nieco więcej przetwarzania tekstu. Dzięki!

questionAnswers(2)

yourAnswerToTheQuestion