Problemas de codificación de emojis en Twitter con twitteR y R

Question

Jun 23, 2016, 09:10 PM

Problemas de codificación de emojis en Twitter con twitteR y R

Estoy tratando de construir una forma de encontrar emojis en Twitter y relacionarlos con la tabla Unicode que se puede encontrar en Unicode.org, pero me resulta difícil identificarlos debido a lo que creo que son problemas de codificación o simplemente a mi malentendido. este tema. En resumen, lo que hice fue construir una "biblioteca" de emojis a partir de la tabla que se encuentra enhttp://www.unicode.org/emoji/charts/full-emoji-list.html que contiene el título y el punto de código (código) del emoji. Deseché esto en R con la bibliotecarvest.

El problema surge cuando tomo la información de Twitter con la API twitteR en R. Como los códigos para los emojis no se parecen en nada a los de esta tabla.

Veamos un ejemplo con el emoji del icono rojo de 100 (cien puntos). Este es el número 1468 en la tabla vinculada anterior y su código de punto de código es:

U+1F4AF

Ahora, cuando lo tomo de Twitter, en primer lugar se muestra así en la clase de estado que la API ha incorporado para trabajar con los tweets.

\xed��\xed��

Luego, una vez que lo convierto en un marco de datos, lo hago también con una función integrada de la API de Twitter. Por ejemplo:

tweet$toDataFrame()

El emoji se convierte en esto:

<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>

Traté de convertirlo con la funcióniconv en R, con el siguiente código:

iconv(tweet$text, from="UTF-8", to="ASCII", "byte)

y solo logro hacer que se vea así:

<ed><a0><bd><ed><b2><af>

Entonces, finalizando y al final de mis pruebas, obtuve los siguientes resultados:

<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed��\xed��

Ninguno de los cuales se parece al punto de código especificado por la tabla:

U+1F4AF

¿Hay alguna posibilidad de transformar entre las dos cadenas? ¿Qué me estoy perdiendo? ¿Por qué Twitter devuelve esta información para emojis?

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

Cómo hacer un vector de tipo-valor para la memoria fijada en cuda

0 la respuesta

Diferencia entre: oculto y: no (: visible) en jQuery

0 la respuesta

'git pull origin mybranch' deja a mybranch N local antes que el origen. ¿Por qué?

0 la respuesta

¿Cómo puedo agregar una etiqueta dentro de una etiqueta de barra de progreso?

0 la respuesta

Barra lateral pegajosa: manténgase en la parte inferior cuando se desplaza hacia abajo, hacia arriba cuando se desplaza hacia arriba

¡Eres muy activo! ¡Es genial!

Problemas de codificación de emojis en Twitter con twitteR y R

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares