Resultados da pesquisa a pedido "tokenize"

1 a resposta

Regex C ++: obtenha o índice do Grupo de Captura ao qual o SubMatch correspondeu

Contexto. Estou desenvolvendo um mecanismo Lexer / Tokenizing, que usaria regex como back-end. O lexer aceita regras que definem os tipos / IDs de token, por exemplo <identifier> = "\\b\\w+\\b". Como eu imagino, para executar a tokenização ...

1 a resposta

Como aplicar a biblioteca NLTK word_tokenize em um dataframe do Pandas para dados do Twitter?

Este é o código que estou usando para análise semântica do twitter: - import pandas as pd import datetime import numpy as np import re from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem.wordnet import ...

4 a resposta

declaração implícita da função 'strtok_r' [-Wimplicit-function-statement] apesar de <string.h>

Eu tenho o seguinte código para tokenizar uma string contendo linhas separadas por\n e cada linha tem números inteiros separados por um\t: void string_to_int_array(char file_contents[BUFFER_SIZE << 5], int array[200][51]) { char *saveptr1, ...

1 a resposta

Como tokenizar apenas certas palavras no Lucene

Estou usando o Lucene para o meu projeto e preciso de um analisador personalizado. O código é: public class MyCommentAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents( String fieldName, Reader reader ) ...

10 a resposta

Python - RegEx para dividir texto em frases (tokenizing de frase) [duplicado]

Esta pergunta já tem uma resposta aqui: Python dividir texto em frases [/questions/4576077/python-split-text-on-sentences] 9 respostasQuero fazer uma lista de frases de uma string e imprimi-las. Não quero usar o NLTK para fazer isso. Portanto, ...

9 a resposta

Token NSString em Objective-C

Qual é a melhor maneira de tokenizar / dividir um NSString no Objective-C?

4 a resposta

Como obter um token de um Lucene TokenStream?

Estou tentando usar o Apache Lucene para tokenização e estou confuso com o processo de obter tokens de umTokenStream. A pior parte é que estou vendo os comentários nos JavaDocs que abordam ...

8 a resposta

Tokenizing strings em C

Eu tenho tentado tokenizar uma string usando o SPACE como delimitador, mas não funciona. Alguém tem alguma sugestão de por que não funciona? Editar: tokenização usando: strtok(string, " ");O código é como o seguinte pch = strtok (str," "); ...

2 a resposta

Existe um tokenizador para um arquivo cpp

Eu tenho um arquivo cpp com uma implementação de classe enorme. Agora eu tenho que modificar o próprio arquivo de origem. Para isso, existe uma biblioteca / api / tool que irá tokenizar esse arquivo para mim e me fornecer um token cada vez que ...

1 a resposta

Tokenizer RegEx para dividir um texto em palavras, dígitos e sinais de pontuação

O que eu quero fazer é dividir um texto em seus elementos finais. Por exemplo: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...