oración dividida sin espacio en python (nltk?)
Tengo un conjunto de palabras concatenadas y quiero dividirlas en matrices
Por ejemplo :
split_word("acquirecustomerdata")
=> ['acquire', 'customer', 'data']
encontrépyenchant
, pero no está disponible para ventanas de 64 bits.
Luego intenté dividir cada cadena en subcadena y luego compararlas con wordnet para encontrar una palabra equivalente. Por ejemplo :
from nltk import wordnet as wn
def split_word(self, word):
result = list()
while(len(word) > 2):
i = 1
found = True
while(found):
i = i + 1
synsets = wn.synsets(word[:i])
for s in synsets:
if edit_distance(s.name().split('.')[0], word[:i]) == 0:
found = False
break;
result.append(word[:i])
word = word[i:]
print(result)
Pero esta solución no es segura y es demasiado larga. Entonces estoy buscando tu ayuda.
Gracias