Wie kann man Akzentzeichen für Regex in Python berücksichtigen?

Question

Sep 06, 2013, 07:48 PM

non-ascii-characters hashtag regex python django

Wie kann man Akzentzeichen für Regex in Python berücksichtigen?

Ich verwende derzeit re.findall, um Wörter nach dem Zeichen '#' für Hash-Tags in einer Zeichenfolge zu suchen und zu isolieren:

hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)

Es durchsucht str1 und findet alle Hashtags. Dies funktioniert, berücksichtigt jedoch nicht die folgenden Zeichen mit Akzent:áéíóúñü¿.

Befindet sich einer dieser Buchstaben in str1, wird der Hashtag bis zu dem Buchstaben davor gespeichert. Also zum Beispiel,#yogenfrüz wäre#yogenfr.

Ich muss in der Lage sein, alle Akzentbuchstaben zu berücksichtigen, die von Deutsch, Niederländisch, Französisch und Spanisch reichen, damit ich Hashtags wie speichern kann#yogenfrüz

Wie kann ich das machen?