Emoji in R [UTF-8-Codierung]
Ich versuche, eine Emoji-Analyse für R durchzuführen. Ich habe einige Tweets mit Emojis gespeichert.
Hier ist einer der Tweets, die ich analysieren möchte:
> tweetn2
[1] "Programme du week-end: \xed\xa0\xbd\xed\xb2\x83\xed\xa0\xbc \xed\xbe\xb6\xed\xa0\xbc
\xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb\xed\xa0\xbc \xed\xbd\xbb\xed\xa0\xbc\xed\xbd\xbb"
Um sicher zu sein, dass ich "UTF-8" habe:
> Encoding(tweetn2)
[1] "UTF-8
"Wenn ich jetzt versuche, einige Zeichen zu erkennen, funktioniert das nicht.
> grepl("\\xed",tweetn2)
[1] FALSE
ode
> grepl("xed",tweetn2)
[1] FALSE
Aber es scheint, dass Emojis "\ xed \ xa0 \ xbd" keine "UTF-8" -Codierung sind, da ich beim Schreiben eine Fehlermeldung erhalte:
> str(tweetn2)
Error in str.default(tweetn2) : invalid multibyte string, element 1
Ich finde eine Art Lösung, indem ich die Funktion iconv () und die dortige "ASCII" -Codierung verwende:
http: //www.r-bloggers.com/emoticons-decoder-for-social-media-sentiment-analysis-in-r
Aber ich möchte weiterhin "UTF-8" für meine Analyse verwenden, da dies gut mit französischen Sonderzeichen (à, é, è, ê, ë, û usw.) funktioniert.
So hast du eine Idee, wie ich darüber hinwegkommen kann?
Vielen Dan