Remova os caracteres repetidos das palavras
Eu queria saber qual é a melhor maneira de converter algo como "haaaaapppppyyy" para "haappyy".
Basicamente, ao analisar a gíria, as pessoas às vezes repetem caracteres para maior ênfase.
Eu queria saber qual é a melhor maneira de fazer isso? Usandoset()
não funciona porque a ordem das letras é obviamente importante.
Alguma ideia? Estou usando o Python + nltk.