Resultados de la búsqueda a petición "tokenize"

He estado tratando de tokenizar una cadena usando SPACE como delimitador, pero no funciona. ¿Alguien tiene alguna sugerencia sobre por qué no funciona? Editar: tokenizar usando: strtok(string, " ");El código es como el siguiente pch = strtok ...

sentence stanford-nlp nlp

3 la respuesta

División de documentos chinos en oraciones [cerrado]

Tengo que dividir el texto chino en varias oraciones. Probé el Stanford DocumentPreProcessor. Funcionó bastante bien para inglés pero no para chino. Por favor, ¿pueden informarme de cualquier buen divisor de frases para chino, preferiblemente en ...

word nltk python pos-tagging

1 la respuesta

error de archivo zip incorrecto en el etiquetado POS en NLTK en python

Soy nuevo en python y NLTK ... Quiero hacer tokenización de palabras y etiquetado POS en esto. Instalé Nltk 3.0 en mi Ubuntu 14.04 con un python 2.7.6 predeterminado. Primero intenté hacer tokenización de una oración simple. recibo un error que ...

stored-procedures coldfusion oracle cfstoredproc

1 la respuesta

matriz o lista en Oracle usando cfprocparam

Tengo una lista de valores que quiero insertar en una tabla a través de un procedimiento almacenado. Pensé que pasaría una matriz a Oracle y recorrería la matriz, pero no veo cómo pasar una matriz a Oracle. Pasaría una lista pero no veo cómo ...

bash split cut

17 la respuesta

Cómo dividir una cadena en shell y obtener el último campo

Supongamos que tengo la cuerda1:2:3:4:5 y quiero obtener su último campo (5 en este caso). ¿Cómo hago eso usando Bash? Lo intentécut, pero no sé cómo especificar el último campo con-f.

nltk python text

2 la respuesta

obtener índices del texto original de nltk word_tokenize

Estoy tokenizando un texto usando nltk.word_tokenize y me gustaría también obtener el índice en el texto original sin procesar para el primer carácter de cada token, es decir. import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...

scikit-learn python n-gram nlp

1 la respuesta

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyen cualquier puntuación como tokens separados?

yo suelosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramos. Ejemplo: import sklearn.feature_extraction.text # ...

stata stata-macros

1 la respuesta

¿Cómo tokenizar una macro extendida (local: dir)?

Sé que mi título es confuso en el sentido de que eltokenize El comando se especifica en una cadena. Tengo muchas carpetas que contienen archivos de Excel masivos, separados y mal nombrados (la mayoría de ellos se eliminan del sitio web). Es ...

perl regex substitution python

3 la respuesta

Relleno de múltiples caracteres con espacio - python

Enperl, Puedo hacer lo siguiente con rellenar mis símbolos de puntuación con espacios: s/([،;؛¿!"\])}»›”؟%٪°±©®।॥…])/ $1 /g;`EnPythonHe intentado esto: >>> p = u'،;؛¿!"\])}»›”؟%٪°±©®।॥…' >>> text = u"this, is a sentence with weird» symbols… ...

python

1 la respuesta

Tokenización de Python

Soy nuevo en Python y tengo una asignación de tokenización. La entrada es un archivo .txt con oraciones y la salida es un archivo .txt con tokens, y cuando digo token quiero decir: palabra simple, ',', '!' , '?' , '.' '"' Tengo esta función: ...

Página 4 de 7

2 345 6

Resultados de la búsqueda a petición "tokenize"

Tokenizar cadenas en C

División de documentos chinos en oraciones [cerrado]

error de archivo zip incorrecto en el etiquetado POS en NLTK en python

Etiquetas Populares

matriz o lista en Oracle usando cfprocparam

Cómo dividir una cadena en shell y obtener el último campo

obtener índices del texto original de nltk word_tokenize

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyen cualquier puntuación como tokens separados?

¿Cómo tokenizar una macro extendida (local: dir)?

Relleno de múltiples caracteres con espacio - python

Tokenización de Python

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "tokenize"

Etiquetas Populares