Resultados de la búsqueda a petición "tokenize"

8 la respuesta

Tokenizar cadenas en C

He estado tratando de tokenizar una cadena usando SPACE como delimitador, pero no funciona. ¿Alguien tiene alguna sugerencia sobre por qué no funciona? Editar: tokenizar usando: strtok(string, " ");El código es como el siguiente pch = strtok ...

3 la respuesta

División de documentos chinos en oraciones [cerrado]

Tengo que dividir el texto chino en varias oraciones. Probé el Stanford DocumentPreProcessor. Funcionó bastante bien para inglés pero no para chino. Por favor, ¿pueden informarme de cualquier buen divisor de frases para chino, preferiblemente en ...

1 la respuesta

error de archivo zip incorrecto en el etiquetado POS en NLTK en python

Soy nuevo en python y NLTK ... Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 con un python 2.7.6 predeterminado. Primero intenté hacer tokenización de una oración simple. recibo un error que ...

1 la respuesta

matriz o lista en Oracle usando cfprocparam

Tengo una lista de valores que quiero insertar en una tabla a través de un procedimiento almacenado. Pensé que pasaría una matriz a Oracle y recorrería la matriz, pero no veo cómo pasar una matriz a Oracle. Pasaría una lista pero no veo cómo ...

17 la respuesta

Cómo dividir una cadena en shell y obtener el último campo

Supongamos que tengo la cuerda1:2:3:4:5 y quiero obtener su último campo (5 en este caso). ¿Cómo hago eso usando Bash? Lo intentécut, pero no sé cómo especificar el último campo con-f.

2 la respuesta

obtener índices del texto original de nltk word_tokenize

Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir. import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...

1 la respuesta

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyen cualquier puntuación como tokens separados?

yo suelosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramos. Ejemplo: import sklearn.feature_extraction.text # ...

1 la respuesta

¿Cómo tokenizar una macro extendida (local: dir)?

Sé que mi título es confuso en el sentido de que eltokenize El comando se especifica en una cadena. Tengo muchas carpetas que contienen archivos de Excel masivos, separados y mal nombrados (la mayoría de ellos se eliminan del sitio web). Es ...

3 la respuesta

Relleno de múltiples caracteres con espacio - python

Enperl, Puedo hacer lo siguiente con rellenar mis símbolos de puntuación con espacios: s/([،;؛¿!"\])}»›”؟%٪°±©®।॥…])/ $1 /g;`EnPythonHe intentado esto: >>> p = u'،;؛¿!"\])}»›”؟%٪°±©®।॥…' >>> text = u"this, is a sentence with weird» symbols… ...

1 la respuesta

Tokenización de Python

Soy nuevo en Python y tengo una asignación de tokenización. La entrada es un archivo .txt con oraciones y la salida es un archivo .txt con tokens, y cuando digo token quiero decir: palabra simple, ',', '!' , '?' , '.' '"' Tengo esta función: ...