dividir sentença sem espaço em python (nltk?)
Eu tenho um conjunto de palavras concatenadas e quero dividi-las em matrizes
Por exemplo :
split_word("acquirecustomerdata")
=> ['acquire', 'customer', 'data']
eu encontreipyenchant
, mas não está disponível para janelas de 64 bits.
Então tentei dividir cada string em sub string e compará-las ao wordnet para encontrar uma palavra equivalente. Por exemplo :
from nltk import wordnet as wn
def split_word(self, word):
result = list()
while(len(word) > 2):
i = 1
found = True
while(found):
i = i + 1
synsets = wn.synsets(word[:i])
for s in synsets:
if edit_distance(s.name().split('.')[0], word[:i]) == 0:
found = False
break;
result.append(word[:i])
word = word[i:]
print(result)
Mas esta solução não tem certeza e é muito longa. Então, estou procurando sua ajuda.
Obrigado