¿Cómo explicar los caracteres de acento para expresiones regulares en Python?

Question

Sep 06, 2013, 07:48 PM

non-ascii-characters python hashtag django regex

¿Cómo explicar los caracteres de acento para expresiones regulares en Python?

Actualmente utilizo re.findall para buscar y aislar palabras después del carácter '#' para etiquetas hash en una cadena:

hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)

Busca en str1 y encuentra todos los hashtags. Esto funciona, sin embargo, no tiene en cuenta los caracteres acentuados como estos, por ejemplo:áéíóúñü¿.

Si una de estas letras está en str1, guardará el hashtag hasta la letra anterior. Así por ejemplo,#yogenfrüz sería#yogenfr.

Necesito poder dar cuenta de todas las letras acentuadas que van desde alemán, holandés, francés y español para poder guardar hashtags como#yogenfrüz

¿Cómo puedo hacer esto?