Lesen und Scannen von MS Word .doc-Dateien in R

Ich habe einen großen Satz von .doc-Dateien, die die in einem Satz entsprechender Datensätze verfügbaren Variablen enthalten. Ich möchte diese in R durchsuchen und sehen, welche Datensätze eine interessante Variable enthalten. Ich habe dies bereits bei reinen Textdateien mit readLines gemacht, aber dies funktioniert nicht bei .doc-Dateien.

Ich habe das TM-Paket heruntergeladen, das in der Lage sein sollte, DOC-Dateien mit dem Befehl readDOC zu lesen, aber die Anweisungen sind ziemlich begrenzt und ich kann es nicht zum Laufen bringen. Weiß jemand, wie man den Befehl readDOC verwendet oder hat einen anderen Vorschlag, wie man dies in R macht? Vielen Dank!

Vielen Dank an alle für die Antworten und Vorschläge. Ich dachte, R könnte leicht zum Einlesen von .doc-Dateien eingerichtet werden, aber von dem, was Sie sagen, ist es meiner Meinung nach am einfachsten, zuerst alle Wortdateien in ein anderes Format zu konvertieren. Ich habe gerade eine kostenlose Software namens "Convert Doc" heruntergeladen, in der ich alle Word-Dokumente in einem Ordner speichere und sie alle sehr schnell in TXT-Dateien speichere. Jetzt kann ich die Suche automatisieren, da ich ungefähr 100 Datendateien mit begleitenden Wortdokumenten habe, die die variable Codierung angeben, die in jeder Datendatei nicht immer gleich ist (z. B. für Ja / Nein, einige verwenden 0/1, andere verwenden 1/2). So kann ich die richtige Variable finden und ihre Codierung mit readLines, grep und etwas mehr Textverarbeitung speichern. Vielen Dank!

Antworten auf die Frage(2)

Ihre Antwort auf die Frage