Resultados de la búsqueda a petición "tokenize"
Tokenizar cadenas en C
He estado tratando de tokenizar una cadena usando SPACE como delimitador, pero no funciona. ¿Alguien tiene alguna sugerencia sobre por qué no funciona? Editar: tokenizar usando: strtok(string, " ");El código es como el siguiente pch = strtok ...
División de documentos chinos en oraciones [cerrado]
Tengo que dividir el texto chino en varias oraciones. Probé el Stanford DocumentPreProcessor. Funcionó bastante bien para inglés pero no para chino. Por favor, ¿pueden informarme de cualquier buen divisor de frases para chino, preferiblemente en ...
error de archivo zip incorrecto en el etiquetado POS en NLTK en python
Soy nuevo en python y NLTK ... Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 con un python 2.7.6 predeterminado. Primero intenté hacer tokenización de una oración simple. recibo un error que ...
matriz o lista en Oracle usando cfprocparam
Tengo una lista de valores que quiero insertar en una tabla a través de un procedimiento almacenado. Pensé que pasaría una matriz a Oracle y recorrería la matriz, pero no veo cómo pasar una matriz a Oracle. Pasaría una lista pero no veo cómo ...
Cómo dividir una cadena en shell y obtener el último campo
Supongamos que tengo la cuerda1:2:3:4:5 y quiero obtener su último campo (5 en este caso). ¿Cómo hago eso usando Bash? Lo intentécut, pero no sé cómo especificar el último campo con-f.
obtener índices del texto original de nltk word_tokenize
Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir. import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...
¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyen cualquier puntuación como tokens separados?
yo suelosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramos. Ejemplo: import sklearn.feature_extraction.text # ...
¿Cómo tokenizar una macro extendida (local: dir)?
Sé que mi título es confuso en el sentido de que eltokenize El comando se especifica en una cadena. Tengo muchas carpetas que contienen archivos de Excel masivos, separados y mal nombrados (la mayoría de ellos se eliminan del sitio web). Es ...
Relleno de múltiples caracteres con espacio - python
Enperl, Puedo hacer lo siguiente con rellenar mis símbolos de puntuación con espacios: s/([،;؛¿!"\])}»›”؟%٪°±©®।॥…])/ $1 /g;`EnPythonHe intentado esto: >>> p = u'،;؛¿!"\])}»›”؟%٪°±©®।॥…' >>> text = u"this, is a sentence with weird» symbols… ...
Tokenización de Python
Soy nuevo en Python y tengo una asignación de tokenización. La entrada es un archivo .txt con oraciones y la salida es un archivo .txt con tokens, y cuando digo token quiero decir: palabra simple, ',', '!' , '?' , '.' '"' Tengo esta función: ...