Problemas de codificación de emojis en Twitter con twitteR y R
Estoy tratando de construir una forma de encontrar emojis en Twitter y relacionarlos con la tabla Unicode que se puede encontrar en Unicode.org, pero me resulta difícil identificarlos debido a lo que creo que son problemas de codificación o simplemente a mi malentendido. este tema. En resumen, lo que hice fue construir una "biblioteca" de emojis a partir de la tabla que se encuentra enhttp://www.unicode.org/emoji/charts/full-emoji-list.html que contiene el título y el punto de código (código) del emoji. Deseché esto en R con la bibliotecarvest.
El problema surge cuando tomo la información de Twitter con la API twitteR en R. Como los códigos para los emojis no se parecen en nada a los de esta tabla.
Veamos un ejemplo con el emoji del icono rojo de 100 (cien puntos). Este es el número 1468 en la tabla vinculada anterior y su código de punto de código es:
U+1F4AF
Ahora, cuando lo tomo de Twitter, en primer lugar se muestra así en la clase de estado que la API ha incorporado para trabajar con los tweets.
\xed��\xed��
Luego, una vez que lo convierto en un marco de datos, lo hago también con una función integrada de la API de Twitter. Por ejemplo:
tweet$toDataFrame()
El emoji se convierte en esto:
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
Traté de convertirlo con la funcióniconv en R, con el siguiente código:
iconv(tweet$text, from="UTF-8", to="ASCII", "byte)
y solo logro hacer que se vea así:
<ed><a0><bd><ed><b2><af>
Entonces, finalizando y al final de mis pruebas, obtuve los siguientes resultados:
<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed��\xed��
Ninguno de los cuales se parece al punto de código especificado por la tabla:
U+1F4AF
¿Hay alguna posibilidad de transformar entre las dos cadenas? ¿Qué me estoy perdiendo? ¿Por qué Twitter devuelve esta información para emojis?