Gensim: TypeError: doc2bow espera uma matriz de tokens unicode na entrada, não uma única string

Question

Oct 20, 2015, 08:20 AM

Gensim: TypeError: doc2bow espera uma matriz de tokens unicode na entrada, não uma única string

Estou começando com alguma tarefa python, estou enfrentando um problema ao usar o gensim. Estou tentando carregar arquivos do meu disco e processá-los (divida-os e minúsculos ())

O código que eu tenho está abaixo:

dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
    with open (file_path, "r") as myfile:
        text=myfile.read()
        for words in text.lower().split():
            dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)

A lista (dictionary_arr) contém a lista de todas as palavras em todo o arquivo, então eu uso o gensim corpora.Dictionary para processar a lista. No entanto, eu enfrento um erro.

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Eu não consigo entender o que é um problema, um pouco de orientação seria apreciada.

questionAnswers(2)

Perguntas populares

0 a resposta

Leitura claramente documentada da funcionalidade de e-mails com o python win32com outlook

0 a resposta

armazenar objetos no banco de dados

0 a resposta

umask do linux para sudo e apache

0 a resposta

Diferença entre num_threads x omp_set_num_threads vs OMP_NUM_THREADS

0 a resposta

Por que List.dropWhile não funciona?

Você é muito ativo! É ótimo!

Gensim: TypeError: doc2bow espera uma matriz de tokens unicode na entrada, não uma única string

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares