Emoji in R [UTF-8-Codierung]

Ich versuche, eine Emoji-Analyse für R durchzuführen. Ich habe einige Tweets mit Emojis gespeichert.

Hier ist einer der Tweets, die ich analysieren möchte:

> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc 
    \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"

Um sicher zu sein, dass ich "UTF-8" habe:

> Encoding(tweetn2)
[1] "UTF-8

"Wenn ich jetzt versuche, einige Zeichen zu erkennen, funktioniert das nicht.

> grepl("\\xed",tweetn2)
[1] FALSE

ode

> grepl("xed",tweetn2)
[1] FALSE

Aber es scheint, dass Emojis "\ xed \ xa0 \ xbd" keine "UTF-8" -Codierung sind, da ich beim Schreiben eine Fehlermeldung erhalte:

> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1

Ich finde eine Art Lösung, indem ich die Funktion iconv () und die dortige "ASCII" -Codierung verwende:
http: //www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r

Aber ich möchte weiterhin "UTF-8" für meine Analyse verwenden, da dies gut mit französischen Sonderzeichen (à, é, è, ê, ë, û usw.) funktioniert.

So hast du eine Idee, wie ich darüber hinwegkommen kann?

Vielen Dan

Antworten auf die Frage(4)

Ihre Antwort auf die Frage