Wiederholende Zeichen aus Wörtern entfernen
Ich habe mich gefragt, wie man so etwas wie "haaaaapppppyyy" am besten in "haappyy" umwandelt.
Grundsätzlich werden beim Parsen von Slang manchmal Zeichen wiederholt, um die Betonung zu erhöhen.
Ich habe mich gefragt, wie das am besten geht. Verwendenset()
funktioniert nicht, weil die Reihenfolge der Buchstaben offensichtlich wichtig ist.
Irgendwelche Ideen? Ich benutze Python + nltk.