Resultados de la búsqueda a petición "nltk"
Cómo extraer frases comunes / significativas de una serie de entradas de texto
Tengo una serie de elementos de texto: HTML sin formato de una base de datos MySQL. Quiero encontrar las frases más comunes en estas entradas (no la frase más común e, idealmente, no imponer la coincidencia palabra por palabra). Mi ejemplo es ...
¿Cuál es el mejor método de derivación en Python?
Probé todos los métodos nltk para derivar, pero me dan resultados extraños con algunas palabras. Ejemplos A menudo corta el final de las palabras cuando no debería hacerlo: caniche => poodlartículo articlo no viene muy bien: fácil y ...
¿Cómo imprimo solo la palabra en un conjunto de palabras de WordNet usando Python NLTK?
¿Hay alguna manera en Python 2.7 usandoNLTK para obtener la palabra y no el formato adicional que incluye"synset" y los paréntesis y el"n.01" etc? Por ejemplo si lo hago wn.synsets('dog')Mis resultados se ven así: [Synset('dog.n.01'), ...
¿Por qué mi función NLTK es lenta al procesar el DataFrame?
Estoy tratando de ejecutar una función con mis millones de líneas en un conjunto de datos. Leo los datos de CSV en un marco de datosUso la lista desplegable para descartar datos que no necesitoLo paso a través de una función NLTK en un bucle ...
¿Cómo puedo extraer GPE (ubicación) usando NLTK ne_chunk?
Estoy tratando de implementar un código para verificar las condiciones climáticas de un área en particular usando la API OpenWeatherMap y NLTK para encontrar el reconocimiento del nombre de la entidad. Pero no puedo encontrar el método de pasar ...
Python (nltk) - UnicodeDecodeError: el códec 'ascii' no puede decodificar el byte
Soy nuevo en NLTK. Recibo este error y he buscado codificación / decodificación y específicamente el UnicodeDecodeError, pero este error parece específico del código fuente NLTK. Aquí está el error: Traceback (most recent call last): File ...
NLTK WordNet Lemmatizer: ¿No debería lematizar todas las inflexiones de una palabra?
Estoy usando el lematizador NLTK WordNet para un proyecto de etiquetado de parte del discurso modificando primero cada palabra en el corpus de entrenamiento a su raíz (modificación en el lugar), y luego entrenando solo en el nuevo corpus. ...
sklearn: Cómo acelerar un vectorizador (por ejemplo, Tfidfvectorizer)
Después de realizar un perfil completo de mi programa, he podido señalar que el vectorizador lo está ralentizando. Estoy trabajando en datos de texto, y dos líneas de vectorización tfidf unigram simple ocupan el 99.2% del tiempo total que tarda ...
Recurso u'tokenizers / punkt / english.pickle 'no encontrado
Mi código: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')Mensaje de error: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", ...
generación de etiquetas a partir de un contenido de texto
Tengo curiosidad por saber si existe un algoritmo / método para generar palabras clave / etiquetas a partir de un texto determinado, mediante el uso de algunos cálculos de peso, relación de ocurrencia u otras herramientas. Además, le agradeceré ...