Twitter Emoji Codierungsprobleme mit twitteR und R

Ich versuche, einen Weg zu finden, Emojis in Twitter zu finden und sie mit der Unicode-Tabelle in Verbindung zu bringen, die man auf unicode.org finden kann, aber ich finde es schwierig, sie zu identifizieren, weil ich denke, dass Codierungsprobleme oder einfach mein Missverständnis vorliegen Zu diesem Thema. Kurz gesagt, ich habe eine "Bibliothek" von Emojis aus der Tabelle in @ erstellhttp: //www.unicode.org/emoji/charts/full-emoji-list.htm enthält den Titel und den Code-Punkt (Code) des Emoji. Ich habe dies in R mit der Bibliothek verschrottet rvest.

Das Problem tritt auf, wenn ich die Informationen von Twitter mit der twitteR-API in R abhole. Da die Codes für die Emojis überhaupt nicht so aussehen wie in dieser Tabelle.

Nehmen wir ein Beispiel mit dem Emoji des 100 (einhundert Punkte) roten Symbols. Dies ist die Nummer 1468 in der zuvor verknüpften Tabelle und ihr Code-Punkt-Code lautet:

U+1F4AF

Nun, wenn ich es von Twitter hole, wird es zuerst in der Statusklasse so angezeigt, die die API für die Arbeit mit den Tweets eingebaut hat.

\xed��\xed��

Dann mache ich es, sobald ich es in einen Datenrahmen konvertiert habe, auch mit einer eingebauten Funktion aus der Twitter-API. Beispielsweise

tweet$toDataFrame()

The Emoji wird dies:

<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>

Ich habe versucht, es mit der Funktion @ zu konvertier iconv in R mit folgendem Code:

iconv(tweet$text, from="UTF-8", to="ASCII", "byte)

und ich schaffe es nur so aussehen zu lassen:

<ed><a0><bd><ed><b2><af>

Also, Abschluss und am Ende meiner Tests kam ich zu den folgenden Ergebnissen:

<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed��\xed��

Keiner davon sieht aus wie der in der Tabelle angegebene Codepunkt:

U+1F4AF

ibt es eine Möglichkeit, zwischen den beiden Zeichenfolgen zu transformieren? Was vermisse ich? Warum gibt Twitter diese Informationen für Emojis zurück?

Antworten auf die Frage(6)

Ihre Antwort auf die Frage