Como explicar os caracteres de acentuação para regex em Python?
Eu atualmente uso re.findall para encontrar e isolar palavras após o caractere '#' para tags hash em uma string:
hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)
Ele procura str1 e encontra todas as hashtags. Isso funciona, no entanto, não conta para caracteres acentuados como estes, por exemplo:áéíóúñü¿
.
Se uma dessas letras estiver em str1, ela salvará a hashtag até a letra anterior. Então, por exemplo,#yogenfrüz
seria#yogenfr
.
Eu preciso ser capaz de explicar todas as letras acentuadas que variam de alemão, holandês, francês e espanhol, para que eu possa salvar hashtags como#yogenfrüz
Como posso fazer isso?