Cómo iterar correctamente sobre caracteres Unicode en Python

Question

Oct 12, 2017, 04:13 PM

Me gustaría iterar sobre una cadena y generar todos los emojis.

Estoy tratando de iterar sobre los personajes y compararlos con unlista de emoji.

Sin embargo, Python parece dividir los caracteres Unicode en otros más pequeños, rompiendo mi código. Ejemplo:

>>> list(u'Test \U0001f60d')
[u'T', u'e', u's', u't', u' ', u'\ud83d', u'\ude0d']

¿Alguna idea de por qué u '\ U0001f60d' se divide?

¿O cuál es una mejor manera de extraer todos los emojis? Este fue mi código de extracción original:

def get_emojis(text):
  emojis = []
  for character in text:
    if character in EMOJI_SET:
      emojis.append(character)
  return emojis

Respuestas a la pregunta(3)

¿Pueden los repositorios DDD tener en cuenta el contexto del usuario?

Android: gira la imagen sin cargarla en la memoria.

Código EF4 Primero: cómo actualizar solo campos específicos

Extraer nombre de dominio de la url [cerrado]

mysql CREAR USUARIO