odczytaj plik MSWord do R

Czy można odczytać plik MSWord 2010 do R? Mam system Windows 7 i komputer Dell.

Używam linii:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

spróbować odczytać plik MSWord zawierający następujący tekst:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Dostaję komunikat ostrzegawczy, który mówi:

Komunikat ostrzegawczy: W readLines ("c: / users / mark w miller / simple R programs / test_for_r.docx"): niekompletna ostateczna linia znaleziona na 'c: / users / mark w miller / simple R programs / test_for_r.docx'

imy.data wygląda na bełkot:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

Wiem, że w tym prostym przykładzie mógłbym łatwo przekonwertować plik MSWord na inny format. Jednak moje rzeczywiste pliki danych składają się ze złożonych tabel, które zostały wpisane dziesiątki lat temu, a następnie zeskanowane do dokumentów PDF później. Wiek oryginalnego dokumentu papierowego i być może niedoskonałości w oryginalnym papierze, proces pisania i / lub skanowania spowodowały, że niektóre litery i cyfry nie były zbyt jasne. Do tej pory konwersja plików pdf na MSWord wydaje się najbardziej skuteczna przy poprawnym tłumaczeniu tabel. Konwersja plików MSWord do Excela lub tekstu sformatowanego itp. Nie była zbyt udana. Nawet po konwersji na MSWord pliki wynikowe są bardzo złożone i zawierają liczne błędy. Pomyślałem, że jeśli będę mógł odczytać pliki MSWorda do R, może to być najskuteczniejszy sposób ich edycji i poprawiania.

Zdaję sobie sprawę z „pakietu tm”, który, jak sądzę, może odczytywać pliki MSWorda do R, ale trochę mnie to obchodzi, ponieważ wydaje się, że wymaga zainstalowania oprogramowania innych firm.

Dziękujemy za wszelkie sugestie.

questionAnswers(3)

yourAnswerToTheQuestion