Resultados de la búsqueda a petición "tokenize"

12 la respuesta

Pythonic forma de implementar un tokenizer

Voy a implementar un tokenizer en Python y me preguntaba si podría ofrecer algún consejo de estilo. He implementado un tokenizer antes en C y en Java, así que estoy de acuerdo con la teoría, solo me gustaría asegurarme de que sigo los estilos ...

1 la respuesta

¿Archivo de token C definido para flex?

Quiero dividir un archivo C en tokens, no para compilar sino para analizar. Siento que esto debería ser bastante sencillo, e intenté buscar en línea una @ definitokens.l (o algo similar) para flex con toda la gramática C ya definida, pero no ...

3 la respuesta

¿Cómo tokenizar esta cadena en Ruby?

Tengo esta cadena: %{Children^10 Health "sanitation management"^5}Y quiero convertirlo para convertirlo en una matriz de hashes: [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation management", ...

1 la respuesta

Diferencia entre StandardTokenizerFactory y KeywordTokenizerFactory en Solr?

Soy nuevo en Solr.Quiero saber cuándo usar StandardTokenizerFactory y KeywordTokenizerFactory? Leí los documentos en Apache Wiki, pero no lo entiendo. ¿Alguien puede explicar eldifference entre StandardTokenizerFactory y KeywordTokenizerFactory?

1 la respuesta

Generando un Tokenizer personalizado para la nueva API TokenStream usando JFlex / Java CC

Actualmente estamos usando Lucene 2.3.2 y queremos migrar a 3.4.0. Tenemos nuestro propio Tokenizer personalizado generado usando Java CC que ha estado en uso desde que comenzamos a usar Lucene y queremos continuar con el mismo comportamiento. ...

1 la respuesta

Boost :: tokenizer separados por comas (c ++)

Debería ser fácil para ustedes ..... Estoy jugando con tokenizadores usando Boost y quiero crear un token que esté separado por comas. Aquí está mi código: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...

10 la respuesta

tokenizando y convirtiendo a pig latin

Esto parece tarea, pero ten la seguridad de que no es tarea. Solo un ejercicio en el libro que usamos en nuestro curso de c ++, estoy tratando de leer con anticipación en punteros .. El ejercicio en el libro me dice que divida una oración en ...

8 la respuesta

Tokenizing Error: java.util.regex.PatternSyntaxException, colgando metacarácter '*'

Estoy usandosplit() para tokenizar una cadena separada con* siguiendo este formato: name*lastName*ID*school*age % name*lastName*ID*school*age % name*lastName*ID*school*age Estoy leyendo esto de un archivo llamado "entrada.al" usando este ...

6 la respuesta

Tokenizing unicode usando nltk

Tengo archivos de texto que usan codificación utf-8 que contienen caracteres como 'ö', 'ü', etc. Me gustaría analizar el texto de estos archivos, pero no puedo hacer que el tokenizer funcione correctamente. Si uso el tokenizer nltk estándar: f ...

12 la respuesta

¿Qué es más eficiente una caja de interruptor o un std :: map

Estoy pensando en el tokenizer aquí. ada token llama a una función diferente dentro del analizador. Qué es más eficiente: Un mapa de std :: funciones / boost :: funciones Una caja de interruptor