Problemas de codificación de emojis en Twitter con twitteR y R

Estoy tratando de construir una forma de encontrar emojis en Twitter y relacionarlos con la tabla Unicode que se puede encontrar en Unicode.org, pero me resulta difícil identificarlos debido a lo que creo que son problemas de codificación o simplemente a mi malentendido. este tema. En resumen, lo que hice fue construir una "biblioteca" de emojis a partir de la tabla que se encuentra enhttp://www.unicode.org/emoji/charts/full-emoji-list.html que contiene el título y el punto de código (código) del emoji. Deseché esto en R con la bibliotecarvest.

El problema surge cuando tomo la información de Twitter con la API twitteR en R. Como los códigos para los emojis no se parecen en nada a los de esta tabla.

Veamos un ejemplo con el emoji del icono rojo de 100 (cien puntos). Este es el número 1468 en la tabla vinculada anterior y su código de punto de código es:

U+1F4AF

Ahora, cuando lo tomo de Twitter, en primer lugar se muestra así en la clase de estado que la API ha incorporado para trabajar con los tweets.

\xed��\xed��

Luego, una vez que lo convierto en un marco de datos, lo hago también con una función integrada de la API de Twitter. Por ejemplo:

tweet$toDataFrame()

El emoji se convierte en esto:

<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>

Traté de convertirlo con la funcióniconv en R, con el siguiente código:

iconv(tweet$text, from="UTF-8", to="ASCII", "byte)

y solo logro hacer que se vea así:

<ed><a0><bd><ed><b2><af>

Entonces, finalizando y al final de mis pruebas, obtuve los siguientes resultados:

<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed��\xed��

Ninguno de los cuales se parece al punto de código especificado por la tabla:

U+1F4AF

¿Hay alguna posibilidad de transformar entre las dos cadenas? ¿Qué me estoy perdiendo? ¿Por qué Twitter devuelve esta información para emojis?

Respuestas a la pregunta(3)

Su respuesta a la pregunta