Resultados de la búsqueda a petición "tokenize"

2 la respuesta

¿Cuáles son todos los caracteres de espacios en blanco japoneses?

Necesito dividir una cadena y extraer palabras separadas por espacios en blanco. La fuente puede estar en inglés o japonés. Los espacios en blanco en inglés incluyen tabulación y espacio, y el texto en japonés también los utiliza. (IIRC, todos ...

1 la respuesta

Matriz de término de documento en R: el tokenizador bigram no funciona

Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...

2 la respuesta

Boost :: punto de tokenizer separado, pero también manteniendo campos vacíos

he vistoesta pregunta [https://stackoverflow.com/q/7941725/1360570]y el mío es muy similar, pero es diferente, así que no lo marques como duplicado. Mi pregunta es:¿Cómo obtengo los campos vacíos de una cadena? Tengo una cuerda comostd::string ...

2 la respuesta

Reemplazar todos los tokens basados en el archivo de propiedades con ANT

Estoy bastante seguro de que esta es una pregunta simple para responder y la he visto antes, pero no hay respuestas sólidas. Tengo varios archivos de propiedades que se utilizan para diferentes entornos, es decir, xxxx-dev, xxxx-test, ...

1 la respuesta

C ++ regex: obtener el índice del grupo de captura con el que el SubMatch coincidió

Contexto. Estoy desarrollando un motor Lexer / Tokenizing, que usaría regex como back-end. El lexer acepta reglas, que definen los tipos de token / ID, p. <identifier> = "\\b\\w+\\b". Como imagino, para hacer la tokenización basada en ...

4 la respuesta

declaración implícita de función 'strtok_r' [-Wimplicit-function-declaración] inspite incluyendo <string.h>

Tengo el siguiente código para tokenizar una cadena que contiene líneas separadas por\n y cada línea tiene enteros separados por un\t: void string_to_int_array(char file_contents[BUFFER_SIZE << 5], int array[200][51]) { char *saveptr1, ...

1 la respuesta

Cómo tokenizar solo ciertas palabras en Lucene

Estoy usando Lucene para mi proyecto y necesito un analizador personalizado. El código es: public class MyCommentAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents( String fieldName, Reader reader ) ...

10 la respuesta

Python - RegEx para dividir texto en oraciones (tokenización de oraciones) [duplicado]

Esta pregunta ya tiene una respuesta aquí: Python divide texto en oraciones [/questions/4576077/python-split-text-on-sentences] 9 respuestasQuiero hacer una lista de oraciones de una cadena y luego imprimirlas. No quiero usar NLTK para hacer ...

9 la respuesta

NSString tokenize en Objective-C

¿Cuál es la mejor manera de tokenizar / dividir un NSString en Objective-C?

4 la respuesta

¿Cómo obtener un token de un Lucene TokenStream?

Estoy tratando de usar Apache Lucene para tokenizar, y estoy desconcertado por el proceso para obtener tokens de unTokenStream. La peor parte es que estoy mirando los comentarios en los JavaDocs que abordan mi ...