Resultados de la búsqueda a petición "nltk"

6 la respuesta

Generación de Ngrams (Unigrams, Bigrams, etc.) a partir de un gran corpus de archivos .txt y su Frecuencia

Necesito escribir un programa en NLTK que rompa un corpus (una gran colección de archivos txt) en unigramas, bigrams, trigrams, fourgrams y fivegrams. Ya he escrito código para ingresar mis archivos en el programa. La entrada es de 300 archivos ...

1 la respuesta

NLTK clasifica la interfaz usando un clasificador entrenado

6 la respuesta

Tokenizing unicode usando nltk

Tengo archivos de texto que usan codificación utf-8 que contienen caracteres como 'ö', 'ü', etc. Me gustaría analizar el texto de estos archivos, pero no puedo hacer que el tokenizer funcione correctamente. Si uso el tokenizer nltk estándar: f ...

1 la respuesta

Traducción automática utilizando babelize_shell () en NLTK

5 la respuesta

Etiquetado POS - NLTK piensa que el sustantivo es un adjetivo

En el siguiente código, ¿por qué nltk piensa que 'pez' es un adjetivo y no un sustantivo?

1 la respuesta

Simplificación del conjunto de etiquetas POS francesas con NLTK

¿Cómo se puede simplificar la parte de las etiquetas de voz devueltas por el etiquetador POS francés de Stanford? Es bastante fácil leer una oración en inglés en NLTK, encontrar la parte del discurso de cada palabra, luego usar map_tag () para ...

1 la respuesta

Python NLTK pos_tag no devuelve la etiqueta correcta de parte del discurso

Teniendo esto: text = word_tokenize("The quick brown fox jumps over the lazy dog")Y corriendo: nltk.pos_tag(text)Yo obtengo: [('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ...

2 la respuesta

Tagger de formación con etiquetas personalizadas en NLTK

Tengo un documento con datos etiquetados en el formatoHi here's my [KEYWORD phone number], let me know when you wanna hangout: [PHONE 7802708523]. I live in a [PROP_TYPE condo] in [CITY New York]. Quiero entrenar un modelo basado en un conjunto ...

2 la respuesta

Tokenice un párrafo en oración y luego en palabras en NLTK

Estoy tratando de ingresar un párrafo completo en mi procesador de textos para dividirlo primero en oraciones y luego en palabras. Intenté el siguiente código pero no funciona, #text is the paragraph input sent_text = sent_tokenize(text) ...

34 la respuesta

Reemplazo de números ordinarios

Actualmente estoy buscando la forma de reemplazar palabras como primero, segundo, tercero, ... con la representación apropiada del número ordinal (1 °, 2 °, 3 °). Estuve buscando en Google durante la última semana y no encontré ninguna ...