Resultados da pesquisa a pedido "tokenize"
Dividir documento chinês em frases [fechado]
Eu tenho que dividir o texto em chinês em várias frases. Eu tentei o Stanford DocumentPreProcessor. Funcionou muito bem para o inglês, mas não para o chinês. Por favor, deixe-me saber quaisquer divisores de frases bons para chinês, ...
erro de arquivo zip incorreto na marcação de POS no NLTK em python
Eu uso o Nltk 3.0 no meu Ubuntu 14.04 com um python padrão 2.7.6.Primeiro eu tentei fazer tokenização de uma sentença simples, mas eu instalei o Nltk 3.0 no meu Ubuntu 14.04 com um python padrão 2.7.6. Estou recebendo um erro dizendo ...
matriz ou lista no Oracle usando cfprocparam
Eu tenho uma lista de valores que quero inserir em uma tabela por meio de um procedimento armazenado. Imaginei que passaria uma matriz para oracle e passaria pela matriz, mas não vejo como passar uma matriz para o Oracle. Eu passaria uma lista, ...
Como dividir uma string no shell e obter o último campo
Suponha que eu tenha a string1:2:3:4:5 e quero obter seu último campo (5 nesse caso). Como faço isso usando o Bash? eu tenteicut, mas não sei como especificar o último campo com-f.
obter índices do texto original de nltk word_tokenize
Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja, import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...
Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?
eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...
Como tokenizar uma macro estendida (local: dir)?
Eu sei que meu título é confuso no sentido de que otokenize O comando é especificado para uma sequência. Tenho muitas pastas que contêm arquivos Excel maciços, separados e mal nomeados (a maioria deles é extraída de um site). É inconveniente ...
Preenchendo vários caracteres com espaço - python
Noperl, Posso fazer o seguinte com preenchendo meus símbolos de pontuação com espaços: s/([،;؛¿!"\])}»›”؟%٪°±©®।॥…])/ $1 /g;`NoPython, Eu tentei isso: >>> p = u'،;؛¿!"\])}»›”؟%٪°±©®।॥…' >>> text = u"this, is a sentence with weird» symbols… ...
Tokenização de Python
Eu sou novo no Python e tenho uma atribuição de tokenização. A entrada é um arquivo .txt com frases e a saída é um arquivo .txt com tokens. Quando digo token, quero dizer: palavra simples, ',', '!' , '?' , '.' '"' Eu tenho esta função: Entrada: ...
Existe uma função para dividir uma string no PL / SQL?
Preciso escrever um procedimento para normalizar um registro que tenha vários tokens concatenados por um caractere. Preciso obter esses tokens dividindo a string e inserir cada um como um novo registro em uma tabela. O Oracle tem algo como uma ...