Resultados da pesquisa a pedido "text-mining"
R-Project nenhum método aplicável para 'meta' aplicado a um objeto da classe “personagem”
Estou tentando executar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...
mineração de texto em árabe usando R [fechado]
Sou um novo usuário e só quero obter ajuda com o meu trabalho na R. estou fazendo mineração de texto em árabe e gostaria de ter alguma ajuda que alguém tenha experiência nesses campos. Até agora, senti como normalizar o texto em árabe e até R não ...
Removendo palavras muito comuns (ocorrem em mais de 80% dos documentos) em R
Estou trabalhando com o pacote 'tm' para criar um corpus. Eu fiz a maioria das etapas de pré-processamento. O restante é remover palavras muito comuns (termos que ocorrem em mais de 80% dos documentos). Alguém pode me ajudar com isso? dsc <- ...
Big Text Corpus quebra tm_map
Eu estive quebrando minha cabeça por causa disso nos últimos dias. Pesquisei todos os arquivos SO e tentei as soluções sugeridas, mas não consigo fazer isso funcionar. Eu tenho conjuntos de documentos txt em pastas como 2000 06, 1995 -99, etc., e ...
construir lista de arestas de co-ocorrência de palavras em R
Eu tenho um monte de frases e quero criar a lista de borda não direcionada de co-ocorrência de palavras e ver a frequência de cada borda. Dei uma olhada notm pacote, mas não encontrou funções semelhantes. Existe algum pacote / script que eu possa ...
O que é o formato de dados CoNLL?
Eu sou novo na mineração de texto. Estou usando um jar de código aberto (Mate Parser), que me fornece um formato CoNLL 2009 após a análise de dependência. Eu quero usar os resultados de análise de dependência para extração de informações. Mas sou ...
Como ler apenas linhas em um arquivo de texto após uma determinada string usando python?
Usando python, eu gostaria de ler em um dicionário todas as linhas em um arquivo de texto que vêm após uma sequência específica. Eu gostaria de fazer isso em milhares de arquivos de texto. Consigo identificar e imprimir a sequência específica ...
matriz de termos de documentos grandes - erro ao contar o número de caracteres dos documentos
Eu construí uma grande matriz de termos de documentos com o pacoteRTextTools. Agora, estou tentando contar o número de caracteres nas linhas da matriz para poder remover documentos vazios antes de executar a modelagem de tópicos. Meu código não ...
Salvar e reutilizar o TfidfVectorizer no scikit learn
Estou usando o TfidfVectorizer no scikit learn para criar uma matriz a partir de dados de texto. Agora preciso salvar esse objeto para reutilizá-lo mais tarde. Eu tentei usar pickle, mas deu o seguinte erro. loc=open('vectorizer.obj','w') ...
Como usar o OpenNLP para obter tags POS no R?
Aqui está o código R: library(NLP) library(openNLP) tagPOS <- function(x, ...) { s <- as.String(x) word_token_annotator <- Maxent_Word_Token_Annotator() a2 <- Annotation(1L, "sentence", 1L, nchar(s)) a2 <- annotate(s, word_token_annotator, a2) ...