Resultados da pesquisa a pedido "scikit-learn"
Qual é uma boa heurística para detectar se uma coluna em um pandas.DataFrame é categórica?
Estou desenvolvendo uma ferramenta que processa automaticamente os dados no formato pandas.DataFrame. Durante esta etapa de pré-processamento, desejo tratar os dados contínuos e categóricos de maneira diferente. Em particular, quero poder ...
Contar com eficiência as frequências de palavras em python
Eu gostaria de contar as frequências de todas as palavras em um arquivo de texto. >>> countInFile('test.txt')deve retornar{'aaa':1, 'bbb': 2, 'ccc':1} se o arquivo de texto de destino for como: # test.txt aaa bbb ccc bbbEu o implementei com ...
Avalie várias pontuações no sklearn cross_val_score
Estou tentando avaliar vários algoritmos de aprendizado de máquina com o sklearn para obter algumas métricas (precisão, recall, precisão e talvez mais). Pelo que entendi da ...
erro de pycharm durante a importação, mesmo que funcione no terminal
Instalei os pacotes TensorFlow e scikit_learn e todas as suas dependências. Quando tento importá-los usando python 2.7.6 ou 2.7.10 (tentei ambos) no terminal, ele funciona bem. No entanto, quando eu faço isso usando pycharm, dá um erro. No caso ...
Como ajustar parâmetros na Floresta Aleatória, usando o Scikit Learn?
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, ...
Python sklearn-KMeans como obter os valores no cluster
Estou usando o pacote KMeans sklearn.cluster. Depois de concluir o cluster, se precisar saber quais valores foram agrupados, como posso fazer isso? Digamos que eu tivesse 100 pontos de dados e o KMeans me deu 5 clusters. Agora, quero saber quais ...
Como ajustar entradas diferentes em um pipeline do sklearn?
Estou usando o Pipeline do sklearn para classificar o texto. Neste exemplo, o Pipeline tenho um vetorizador TfIDF e alguns recursos personalizados agrupados com o FeatureUnion e um classificador conforme as etapas do Pipeline. Depois, ajusto os ...
Como calcular o intervalo de confiança de 99% para a inclinação em um modelo de regressão linear em python?
Temos a seguinte regressão linear: y ~ b0 + b1 * x1 + b2 * x2. Eu sei que a função de regressão no Matlab calcula, mas o linalg.lstsq do numpy não ...
Regressão logística de várias classes no SciKit Learn
Estou tendo problemas com a chamada adequada de regressão logística da Scikit para o caso de várias classes. Estou usando o solucionador de lbgfs e tenho o parâmetro multi_class definido como multinomial. Não está claro para mim como passar os ...
Como encontrar a frequência ngram de uma coluna em um dataframe de pandas?
Abaixo está o quadro de dados de entrada dos pandas que tenho. [/imgs/ltSrD.png] Quero encontrar a frequência de unigramas e bigrams. Uma amostra do que eu estou esperando é mostrada abaixo [/imgs/7NOKk.png] Como fazer isso usando o nltk ou o ...