Problemas de codificação de emoji do Twitter com twitteR e R

Question

Jun 23, 2016, 09:10 PM

Problemas de codificação de emoji do Twitter com twitteR e R

Estou tentando criar uma maneira de encontrar emojis no twitter e relacioná-los com a tabela unicode que se pode encontrar no unicode.org, mas estou achando difícil identificá-los por causa do que acho que são problemas de codificação ou simplesmente por meu mal-entendido. Este tópico. Em resumo, o que fiz foi criar uma "biblioteca" de emojis a partir da tabela encontrada emhttp://www.unicode.org/emoji/charts/full-emoji-list.html que contém o título e o ponto de código (código) do emoji. Raspei isso em R com a bibliotecarvest.

O problema surge quando eu pego as informações do twitter com a API twitteR em R. Como os códigos para os emojis não se parecem em nada com os desta tabela.

Vamos dar um exemplo com o emoji do ícone vermelho de 100 (cem pontos). Este é o número 1468 na tabela vinculada antes e seu código de ponto de código é:

U+1F4AF

Agora, quando eu o pego no twitter, primeiro é mostrado assim na classe de status que a API incorporou para trabalhar com os tweets.

\xed��\xed��

Depois, quando o converto em um quadro de dados, faço-o também com uma função interna da API do twitter. Por exemplo:

tweet$toDataFrame()

O emoji se torna o seguinte:

<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>

Eu tentei convertê-lo com a funçãoiconv em R, com o seguinte código:

iconv(tweet$text, from="UTF-8", to="ASCII", "byte)

e só consigo fazer com que fique assim:

<ed><a0><bd><ed><b2><af>

Então, finalizando e no final dos meus testes, cheguei aos seguintes resultados:

<ed><a0><bd><ed><b2><af>
<ed><U+00A0><U+00BD><ed><U+00B2><U+00AF>
\xed��\xed��

Nenhum dos quais se parece com o ponto de código especificado pela tabela:

U+1F4AF

Existe alguma possibilidade de transformação entre as duas strings? o que estou perdendo? Por que o twitter está retornando essas informações para emojis?