Gensim: TypeError: doc2bow espera uma matriz de tokens unicode na entrada, não uma única string
Estou começando com alguma tarefa python, estou enfrentando um problema ao usar o gensim. Estou tentando carregar arquivos do meu disco e processá-los (divida-os e minúsculos ())
O código que eu tenho está abaixo:
dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
with open (file_path, "r") as myfile:
text=myfile.read()
for words in text.lower().split():
dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)
A lista (dictionary_arr) contém a lista de todas as palavras em todo o arquivo, então eu uso o gensim corpora.Dictionary para processar a lista. No entanto, eu enfrento um erro.
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
Eu não consigo entender o que é um problema, um pouco de orientação seria apreciada.