R-Korpus verwirrt meinen UTF-8-kodierten Text

Ich versuche einfach, ein Korpus aus russischem UTF-8-codiertem Text zu erstellen. Das Problem ist, die Corpus-Methode aus dertm Paket codiert die Zeichenfolgen nicht richtig.

Hier ist ein reproduzierbares Beispiel für mein Problem:

Laden Sie den russischen Text:

> data <- c("Renault Logan, 2005","Складское помещение, 345 м²",
          "Су-шеф","3-к квартира, 64 м², 3/5 эт.","Samsung galaxy S4 mini GT-I9190 (чёрный)")

Erstellen Sie eine VectorSource:

> vs <- VectorSource(data)
> vs # outputs correctly

Dann erstellen Sie den Korpus:

> corp <- Corpus(vs)
> inspect(corp) # output is not encoded properly

Die Ausgabe, die ich erhalte, ist:

> inspect(corp)
<<VCorpus (documents: 5, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
Renault Logan, 2005

[[2]]
<<PlainTextDocument (metadata: 7)>>
Ñêëàäñêîå ïîìåùåíèå, 345 ì<U+00B2>

[[3]]
<<PlainTextDocument (metadata: 7)>>
Ñó-øåô

[[4]]
<<PlainTextDocument (metadata: 7)>>
3-ê êâàðòèðà, 64 ì<U+00B2>, 3/5 ýò.

[[5]]
<<PlainTextDocument (metadata: 7)>>
Samsung galaxy S4 mini GT-I9190 (÷¸ðíûé)

Warum wird es falsch ausgegeben? Es scheint keine Option zu geben, um die Codierung für die Corpus-Methode festzulegen. Gibt es eine Möglichkeit, es nachträglich festzulegen? Ich habe das versucht:

> title_corpus <- tm_map(title_corpus, enc2utf8)
Error in FUN(X[[1L]], ...) : argumemt is not a character vector

Aber es Fehler wie gezeigt.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage