Lesen Sie eine MSWord-Datei in R

Kann ich eine MSWord 2010-Datei in R einlesen? Ich habe Windows 7 und einen Dell PC.

Ich benutze die Leitung:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

um zu versuchen, eine MSWord-Datei zu lesen, die den folgenden Text enthält:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Ich erhalte eine Warnmeldung, die besagt:

Warnmeldung: In readLines ("c: / users / mark w miller / einfache R-Programme / test_for_r.docx"): unvollständige letzte Zeile in "c: / users / mark w miller / einfache R-Programme / test_for_r.docx"

undmy.data scheint Kauderwelsch zu sein:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

Ich weiß, dass ich mit diesem einfachen Beispiel die MSWord-Datei leicht in ein anderes Format konvertieren kann. Meine eigentlichen Datendateien bestehen jedoch aus komplexen Tabellen, die vor Jahrzehnten eingegeben und später in PDF-Dokumente gescannt wurden. Das Alter des Originaldokuments und möglicherweise Unvollkommenheiten im Originalpapier, beim Schreiben und / oder Scannen haben dazu geführt, dass einige Buchstaben und Zahlen nicht sehr klar sind. Bisher scheint es am erfolgreichsten zu sein, die PDF-Dateien in MSWord zu konvertieren, um die Tabellen korrekt zu übersetzen. Das Konvertieren der MSWord-Dateien in Excel, Rich Text usw. war nicht sehr erfolgreich. Auch nach der Konvertierung in MSWord sind die resultierenden Dateien sehr komplex und enthalten zahlreiche Fehler. Ich dachte, wenn ich die MSWord-Dateien in R lesen könnte, wäre dies die effizienteste Möglichkeit, sie zu bearbeiten und zu korrigieren.

Mir ist 'package tm' bekannt, mit dem ich MSWord-Dateien in R einlesen kann, aber ich bin ein wenig besorgt, weil es anscheinend die Installation von Software von Drittanbietern erfordert.

Vielen Dank für alle Vorschläge.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage