Resultados de la búsqueda a petición "tokenize"

17 la respuesta

Cómo dividir una cadena en shell y obtener el último campo

Supongamos que tengo la cuerda1:2:3:4:5 y quiero obtener su último campo (5 en este caso). ¿Cómo hago eso usando Bash? Lo intentécut, pero no sé cómo especificar el último campo con-f.

1 la respuesta

PHP eliminación / asignación de espacio de nombres y reescritura de identificadores

Estoy intentando automatizar la eliminación de espacios de nombres de una colección de clases PHP para hacerlos compatibles con PHP 5.2. (A los proveedores de alojamiento compartido no les gustan las instalaciones falsas de PHP 5.3. No tengo ...

1 la respuesta

Tokenización de Python

Soy nuevo en Python y tengo una asignación de tokenización. La entrada es un archivo .txt con oraciones y la salida es un archivo .txt con tokens, y cuando digo token quiero decir: palabra simple, ',', '!' , '?' , '.' '"' Tengo esta función: ...

2 la respuesta

obtener índices del texto original de nltk word_tokenize

Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir. import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...

3 la respuesta

División de documentos chinos en oraciones [cerrado]

Tengo que dividir el texto chino en varias oraciones. Probé el Stanford DocumentPreProcessor. Funcionó bastante bien para inglés pero no para chino. Por favor, ¿pueden informarme de cualquier buen divisor de frases para chino, preferiblemente en ...

10 la respuesta

tokenizando y convirtiendo a pig latin

Esto parece tarea, pero ten la seguridad de que no es tarea. Solo un ejercicio en el libro que usamos en nuestro curso de c ++, estoy tratando de leer con anticipación en punteros .. El ejercicio en el libro me dice que divida una oración en ...

2 la respuesta

Tokenizar, eliminar las palabras de parada usando Lucene con Java

3 la respuesta

Es un trabajo de Lexer analizar números y cadenas?

Es el trabajo de un lexer analizar números y cadenas? sto puede o no sonar tonto, dado el hecho de que estoy preguntando si un lexer deberíaanalizar gramaticalment entrada. Sin embargo, no estoy seguro de si ese es realmente el trabajo del lexer ...

3 la respuesta

Superpower: empareja una cadena con el analizador sintáctico solo si comienza una línea

Al analizar en superpotencia, ¿cómo hacer coincidir una cadena solo si es lo primero en una línea? Por ejemplo, necesito hacer coincidir los dos puntos A en "A: Hola adiós \ n" pero no en "Adiós A: Hola \ n"

1 la respuesta

Matriz de término de documento en R: el tokenizador bigram no funciona

Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...