Resultados da pesquisa a pedido "tokenize"
Regex C ++: obtenha o índice do Grupo de Captura ao qual o SubMatch correspondeu
Contexto. Estou desenvolvendo um mecanismo Lexer / Tokenizing, que usaria regex como back-end. O lexer aceita regras que definem os tipos / IDs de token, por exemplo <identifier> = "\\b\\w+\\b". Como eu imagino, para executar a tokenização ...
Como aplicar a biblioteca NLTK word_tokenize em um dataframe do Pandas para dados do Twitter?
Este é o código que estou usando para análise semântica do twitter: - import pandas as pd import datetime import numpy as np import re from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem.wordnet import ...
declaração implícita da função 'strtok_r' [-Wimplicit-function-statement] apesar de <string.h>
Eu tenho o seguinte código para tokenizar uma string contendo linhas separadas por\n e cada linha tem números inteiros separados por um\t: void string_to_int_array(char file_contents[BUFFER_SIZE << 5], int array[200][51]) { char *saveptr1, ...
Como tokenizar apenas certas palavras no Lucene
Estou usando o Lucene para o meu projeto e preciso de um analisador personalizado. O código é: public class MyCommentAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents( String fieldName, Reader reader ) ...
Python - RegEx para dividir texto em frases (tokenizing de frase) [duplicado]
Esta pergunta já tem uma resposta aqui: Python dividir texto em frases [/questions/4576077/python-split-text-on-sentences] 9 respostasQuero fazer uma lista de frases de uma string e imprimi-las. Não quero usar o NLTK para fazer isso. Portanto, ...
Token NSString em Objective-C
Qual é a melhor maneira de tokenizar / dividir um NSString no Objective-C?
Como obter um token de um Lucene TokenStream?
Estou tentando usar o Apache Lucene para tokenização e estou confuso com o processo de obter tokens de umTokenStream. A pior parte é que estou vendo os comentários nos JavaDocs que abordam ...
Tokenizing strings em C
Eu tenho tentado tokenizar uma string usando o SPACE como delimitador, mas não funciona. Alguém tem alguma sugestão de por que não funciona? Editar: tokenização usando: strtok(string, " ");O código é como o seguinte pch = strtok (str," "); ...
Existe um tokenizador para um arquivo cpp
Eu tenho um arquivo cpp com uma implementação de classe enorme. Agora eu tenho que modificar o próprio arquivo de origem. Para isso, existe uma biblioteca / api / tool que irá tokenizar esse arquivo para mim e me fornecer um token cada vez que ...
Tokenizer RegEx para dividir um texto em palavras, dígitos e sinais de pontuação
O que eu quero fazer é dividir um texto em seus elementos finais. Por exemplo: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...