Resultados de la búsqueda a petición "text-classification"

1 la respuesta

Scikit learn - fit_transform en el conjunto de prueba

Estoy luchando por usar Random Forest en Python con Scikit learn. Mi problema es que lo uso para la clasificación de texto (en 3 clases: positivo / negativo / neutro) y las características que extraigo son principalmente palabras / unigramas, por ...

1 la respuesta

¿Cómo clasificar las URL? ¿Cuáles son las características de las URL? Cómo seleccionar y extraer características de URL

Acabo de comenzar a trabajar en un problema de clasificación. Es un problema de dos clases, mi modelo entrenado (Machine Learning) tendrá que decidir / predecir si se debe permitir una URL o bloquearla. Mi pregunta es muy específica. ¿Cómo ...

1 la respuesta

CountVectorizer elimina características que solo aparecen una vez

Estoy usando el paquete sklearn python y tengo problemas para crear unCountVectorizer con un diccionario pre-creado, donde elCountVectorizer no elimina las funciones que solo aparecen una vez o que no aparecen en absoluto. Aquí está el código de ...

1 la respuesta

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...

1 la respuesta

python textblob y clasificación de texto

Estoy tratando de construir un modelo de clasificación de texto con Python y textblob [https://textblob.readthedocs.org/en/dev/index.html], el script se está ejecutando en mi servidor y en el futuro la idea es que los usuarios puedan enviar su ...

1 la respuesta

¿Cómo asignar una nueva observación a los clústeres de Kmeans existentes basados en la lógica de centrípodos de clúster más cercana en Python?

Utilicé el siguiente código para crear clústeres de k-means utilizando Scikit learn. kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++') kmean_fit = ...

1 la respuesta

error de forma inconsistente MultiLabelBinarizer en y_test, sklearn clasificación multi-etiqueta

import numpy as np import pandas as pd from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.linear_model import SGDClassifier ...

1 la respuesta

Sklearn: ROC para clasificación multiclase

Estoy haciendo diferentes experimentos de clasificación de texto. Ahora necesito calcular el AUC-ROC para cada tarea. Para las clasificaciones binarias, ya lo hice funcionar con este código: scaler = StandardScaler(with_mean=False) enc = ...

1 la respuesta

Cálculo de ganancia de información con Scikit-learn

Estoy usando Scikit-learn para la clasificación de texto. Quiero calcular la ganancia de información para cada atributo con respecto a una clase en una matriz de término de documento (dispersa). La ganancia de información se define como H (Clase) ...

1 la respuesta

R: LIME devuelve un error en diferentes números de función cuando no es el caso

Estoy creando un clasificador de texto de los tweets de Clinton y Trump (los datos se pueden encontrar en Kaggle [https://www.kaggle.com/benhamner/clinton-trump-tweets/data#]). Estoy haciendo EDA y modelando usandoquanteda ...