Resultados da pesquisa a pedido "text-classification"
Scikit learn - fit_transform no conjunto de testes
Estou lutando para usar a Random Forest em Python com o Scikit learn. Meu problema é que eu o uso para classificação de texto (em 3 classes - positivo / negativo / neutro) e os recursos que extraio são principalmente palavras / unigramas, por ...
Como classificar URLs? o que são recursos de URLs? Como selecionar e extrair recursos do URL
Comecei a trabalhar em um problema de classificação. É um problema de duas classes, meu modelo treinado (Machine Learning) terá que decidir / prever ou permitir um URL ou bloqueá-lo. Minha pergunta é muito específica. Como classificar URLs? ...
CountVectorizer excluindo recursos que aparecem apenas uma vez
Estou usando o pacote sklearn python e estou tendo problemas para criar umCountVectorizer com um dicionário pré-criado, onde oCountVectorizer não exclui recursos que aparecem apenas uma vez ou nem aparecem. Aqui está o código de exemplo que eu ...
Como usar o classificador spark Naive Bayes para classificação de texto com IDF?
Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...
python textblob e classificação de texto
Estou tentando criar um modelo de classificação de texto com python etextblob [https://textblob.readthedocs.org/en/dev/index.html], o script está sendo executado no meu servidor e, no futuro, a idéia é que os usuários possam enviar seus textos e ...
Como atribuir uma nova observação aos clusters Kmeans existentes com base na lógica de centríodo de cluster mais próxima em python?
Usei o código abaixo para criar clusters k-means usando o Scikit learn. kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++') kmean_fit = kmean.fit(clus_data)Eu também salvei ...
erro de forma inconsistente MultiLabelBinarizer em y_test, sklearn classificação de rótulos múltiplos
import numpy as np import pandas as pd from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.linear_model import SGDClassifier ...
Sklearn: ROC para classificação multiclasse
Estou fazendo experiências diferentes de classificação de texto. Agora preciso calcular o AUC-ROC para cada tarefa. Para as classificações binárias, eu já fiz funcionar com este código: scaler = StandardScaler(with_mean=False) enc = ...
Cálculo do ganho de informações com o Scikit-learn
Estou usando o Scikit-learn para classificação de texto. Quero calcular o ganho de informações para cada atributo em relação a uma classe em uma matriz de termo de documento (esparsa). O ganho de informação é definido como H (Classe) - H (Classe ...
R: LIME retorna erro em diferentes números de recurso quando não é o caso
Estou criando um classificador de texto dos tweets de Clinton e Trump (os dados podem ser encontrados emKaggle [https://www.kaggle.com/benhamner/clinton-trump-tweets/data#]) Estou fazendo EDA e modelando usandoquanteda pacote: library(dplyr) ...
Página 1 do 2