Resultados da pesquisa a pedido "text-classification"

1 a resposta

Scikit learn - fit_transform no conjunto de testes

Estou lutando para usar a Random Forest em Python com o Scikit learn. Meu problema é que eu o uso para classificação de texto (em 3 classes - positivo / negativo / neutro) e os recursos que extraio são principalmente palavras / unigramas, por ...

1 a resposta

Como classificar URLs? o que são recursos de URLs? Como selecionar e extrair recursos do URL

Comecei a trabalhar em um problema de classificação. É um problema de duas classes, meu modelo treinado (Machine Learning) terá que decidir / prever ou permitir um URL ou bloqueá-lo. Minha pergunta é muito específica. Como classificar URLs? ...

1 a resposta

CountVectorizer excluindo recursos que aparecem apenas uma vez

Estou usando o pacote sklearn python e estou tendo problemas para criar umCountVectorizer com um dicionário pré-criado, onde oCountVectorizer não exclui recursos que aparecem apenas uma vez ou nem aparecem. Aqui está o código de exemplo que eu ...

1 a resposta

Como usar o classificador spark Naive Bayes para classificação de texto com IDF?

Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...

1 a resposta

python textblob e classificação de texto

Estou tentando criar um modelo de classificação de texto com python etextblob [https://textblob.readthedocs.org/en/dev/index.html], o script está sendo executado no meu servidor e, no futuro, a idéia é que os usuários possam enviar seus textos e ...

1 a resposta

Como atribuir uma nova observação aos clusters Kmeans existentes com base na lógica de centríodo de cluster mais próxima em python?

Usei o código abaixo para criar clusters k-means usando o Scikit learn. kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++') kmean_fit = kmean.fit(clus_data)Eu também salvei ...

1 a resposta

erro de forma inconsistente MultiLabelBinarizer em y_test, sklearn classificação de rótulos múltiplos

import numpy as np import pandas as pd from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.linear_model import SGDClassifier ...

1 a resposta

Sklearn: ROC para classificação multiclasse

Estou fazendo experiências diferentes de classificação de texto. Agora preciso calcular o AUC-ROC para cada tarefa. Para as classificações binárias, eu já fiz funcionar com este código: scaler = StandardScaler(with_mean=False) enc = ...

1 a resposta

Cálculo do ganho de informações com o Scikit-learn

Estou usando o Scikit-learn para classificação de texto. Quero calcular o ganho de informações para cada atributo em relação a uma classe em uma matriz de termo de documento (esparsa). O ganho de informação é definido como H (Classe) - H (Classe ...

1 a resposta

R: LIME retorna erro em diferentes números de recurso quando não é o caso

Estou criando um classificador de texto dos tweets de Clinton e Trump (os dados podem ser encontrados emKaggle [https://www.kaggle.com/benhamner/clinton-trump-tweets/data#]) Estou fazendo EDA e modelando usandoquanteda pacote: library(dplyr) ...