split Satz ohne Leerzeichen in Python (nltk?)

Question

Jun 30, 2016, 03:55 PM

split Satz ohne Leerzeichen in Python (nltk?)

Ich habe eine Reihe von verketteten Wörtern und ich möchte sie in Arrays aufteilen

Zum Beispiel

split_word("acquirecustomerdata")
=> ['acquire', 'customer', 'data']

Ich fandpyenchant, aber für 64-Bit-Fenster nicht verfügbar.

Dann habe ich versucht, jede Zeichenfolge in eine Unterzeichenfolge aufzuteilen und sie dann mit wordnet zu vergleichen, um ein gleichwertiges Wort zu finden. Zum Beispiel

from nltk import wordnet as wn
def split_word(self, word):
    result = list()
    while(len(word) > 2):
        i = 1
        found = True
        while(found):
            i = i + 1
            synsets = wn.synsets(word[:i])
            for s in synsets:
                if edit_distance(s.name().split('.')[0], word[:i]) == 0:
                    found = False
                    break;
        result.append(word[:i])
        word = word[i:]
   print(result)

Aber diese Lösung ist nicht sicher und zu lang. Also suche ich deine Hilfe.

Vielen Dan