Resultados da pesquisa a pedido "tokenize"
Como se livrar da pontuação usando o tokenizer NLTK?
Estou apenas começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usar
Tokenize, remova as palavras de parada usando Lucene com Java
Eu estou tentando tokenize e remover palavras de parada de um arquivo txt com Lucene. Eu tenho isto:
Por que n + + n é válido enquanto n + + + n não é?
Em Java, a expressão:
Dividindo uma sequência separada por vírgula em um processo armazenado PL / SQL
Eu tenho a sequência 100.01.200.02.300.03 do CSV que preciso passar para um procedimento armazenado PL / SQL no Oracle. Dentro do proc, preciso inserir esses valores em uma coluna Number na tabela. Para isso, recebi uma abordagem de trabalho ...
Matriz de termo de documento em R - tokenizer bigram não está funcionando
Estou tentando fazer duas matrizes de termo de documento para um corpus, um com unigramas e outro com bigrams. No entanto, a matriz bigram atualmente é apenas idêntica à matriz unigram, e não sei por que. O ...
Quais são todos os caracteres em branco do espaço em japonês?
Preciso dividir uma sequência e extrair palavras separadas por caracteres de espaço em branco. A fonte pode estar em inglês ou japonês. Os caracteres em branco em inglês incluem tabulação e espaço, e o texto em japonês também os utiliza. (IIRC, ...
Substituindo todos os tokens com base no arquivo de propriedades pelo ANT
Tenho certeza de que esta é uma pergunta simples de responder e eu já a perguntei antes de não haver respostas sólidas. Eu tenho vários arquivos de propriedades que são usados para diferentes ambientes, como xxxx-dev, xxxx-test, xxxx-live Os ...