Resultados da pesquisa a pedido "tokenize"

3 a resposta

Dividir documento chinês em frases [fechado]

Eu tenho que dividir o texto em chinês em várias frases. Eu tentei o Stanford DocumentPreProcessor. Funcionou muito bem para o inglês, mas não para o chinês. Por favor, deixe-me saber quaisquer divisores de frases bons para chinês, ...

1 a resposta

erro de arquivo zip incorreto na marcação de POS no NLTK em python

Eu uso o Nltk 3.0 no meu Ubuntu 14.04 com um python padrão 2.7.6.Primeiro eu tentei fazer tokenização de uma sentença simples, mas eu instalei o Nltk 3.0 no meu Ubuntu 14.04 com um python padrão 2.7.6. Estou recebendo um erro dizendo ...

1 a resposta

matriz ou lista no Oracle usando cfprocparam

Eu tenho uma lista de valores que quero inserir em uma tabela por meio de um procedimento armazenado. Imaginei que passaria uma matriz para oracle e passaria pela matriz, mas não vejo como passar uma matriz para o Oracle. Eu passaria uma lista, ...

17 a resposta

Como dividir uma string no shell e obter o último campo

Suponha que eu tenha a string1:2:3:4:5 e quero obter seu último campo (5 nesse caso). Como faço isso usando o Bash? eu tenteicut, mas não sei como especificar o último campo com-f.

2 a resposta

obter índices do texto original de nltk word_tokenize

Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja, import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...

1 a resposta

Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...

1 a resposta

Como tokenizar uma macro estendida (local: dir)?

Eu sei que meu título é confuso no sentido de que otokenize O comando é especificado para uma sequência. Tenho muitas pastas que contêm arquivos Excel maciços, separados e mal nomeados (a maioria deles é extraída de um site). É inconveniente ...

3 a resposta

Preenchendo vários caracteres com espaço - python

Noperl, Posso fazer o seguinte com preenchendo meus símbolos de pontuação com espaços: s/([،;؛¿!"\])}»›”؟%٪°±©®।॥…])/ $1 /g;`NoPython, Eu tentei isso: >>> p = u'،;؛¿!"\])}»›”؟%٪°±©®।॥…' >>> text = u"this, is a sentence with weird» symbols… ...

1 a resposta

Tokenização de Python

Eu sou novo no Python e tenho uma atribuição de tokenização. A entrada é um arquivo .txt com frases e a saída é um arquivo .txt com tokens. Quando digo token, quero dizer: palavra simples, ',', '!' , '?' , '.' '"' Eu tenho esta função: Entrada: ...

10 a resposta

Existe uma função para dividir uma string no PL / SQL?

Preciso escrever um procedimento para normalizar um registro que tenha vários tokens concatenados por um caractere. Preciso obter esses tokens dividindo a string e inserir cada um como um novo registro em uma tabela. O Oracle tem algo como uma ...