Resultados da pesquisa a pedido "text-analysis"

1 a resposta

Converter matriz esparsa (csc_matrix) em pandas dataframe

Eu quero converter essa matriz em um dataframe de pandas.csc_matrix [http://i.stack.imgur.com/qYkPp.png] oprimeironúmero no suporte deve ser oíndice, asegundonúmero sendocolunase a número no finalsendo odados. Eu quero fazer isso para fazer a ...

4 a resposta

Como extrair frases comuns / significativas de uma série de entradas de texto

Eu tenho uma série de itens de texto - HTML bruto de um banco de dados MySQL. Desejo encontrar as frases mais comuns nessas entradas (não a frase mais comum e, idealmente, não aplicando a correspondência palavra por palavra). Meu exemplo é ...

6 a resposta

ados de treinamento para análise de sentimentos [fechado]

Onde posso obter um corpus de documentos que já foram classificados como positivos / negativos por sentimentos no domínio corporativo? Desejo um grande conjunto de documentos que forneçam análises para empresas, como análises de empresas ...

1 a resposta

Como encontrar frases comuns em um grande corpo de texto

Estou trabalhando em um projeto no momento em que preciso escolher as frases mais comuns em um enorme corpo de texto. Por exemplo, digamos que temos três fra...

1 a resposta

Big Text Corpus quebra tm_map

Eu estive quebrando minha cabeça por causa disso nos últimos dias. Pesquisei todos os arquivos SO e tentei as soluções sugeridas, mas não consigo fazer isso funcionar. Eu tenho conjuntos de documentos txt em pastas como 2000 06, 1995 -99, etc., e ...

3 a resposta

Bibliotecas de análise de texto Java

Estou procurando uma solução orientada a java para um requisito para analisar sentenças para registrar se uma palavra-chave foi usada positiva ou negativamente. Ou seja, a palavra-chave pode ser 'repolhos' e a frase: - "Eu gosto de repolho, mas ...

3 a resposta

Extraindo texto do PDF truncado [closed]

Eu tenho um arquivo PDF com informações textuais valiosas.O problema é que não consigo extrair o texto, tudo que consigo é um monte de símbolos ilegíveis. O ...

1 a resposta

Crie o dfm passo a passo com quanteda

Quero analisar um grande (n = 500.000) corpus de documentos. estou usandoquanteda na expectativa de queserá mais rápido [https://stackoverflow.com/questions/25330753/more-efficient-means-of-creating-a-corpus-and-dtm-with-4m-rows] do quetm_map() ...

1 a resposta

ValueError: matrizes encontradas com números inconsistentes de amostras [6 1786]

Aqui está o meu código: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import datasets import numpy as ...