Resultados da pesquisa a pedido "tm"

4 a resposta

Erro DocumentTermMatrix no argumento Corpus

Eu tenho o seguinte código: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, ...

0 a resposta

O DocumentTermMatrix falha com um erro estranho apenas quando # terms> 3000

Meu código abaixo funciona bem, a menos que eu use create a DocumentTermMatrix com mais de 3000 termos. Está linha: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train, list(dictionary = ...

1 a resposta

No pacote R tm, construa o corpus FROM Document-Term-Matrix

É simples criar uma matriz de termos de documento a partir de um corpus com o pacote tm. Eu gostaria de construir um corpus a partir de uma matriz termo-documento. Seja M o número de documentos em um conjunto de documentos. Seja V o número ...

4 a resposta

R-Project nenhum método aplicável para 'meta' aplicado a um objeto da classe “personagem”

Estou tentando executar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...

3 a resposta

R Corpus está bagunçando meu texto codificado em UTF-8

Estou simplesmente tentando criar um corpus a partir de russo, texto codificado em UTF-8. O problema é que o método Corpus dotm O pacote não está codificando as seqüências corretamente. Aqui está um exemplo reproduzível do meu ...

4 a resposta

stemCompletion não está funcionando

Estou usando o pacote tm para análise de texto de dados de reparo, a leitura de dados no quadro de dados, a conversão para o objeto Corpus e a aplicação de vários métodos para limpar dados usando espaço menor, stipWhitespace, removestopwords e ...

2 a resposta

R tm In mclapply (conteúdo (x), FUN,…): todos os núcleos agendados encontraram erros no código do usuário

Quando executo os seguintes códigos na penúltima linha, recebi a mensagem de aviso: No mclapply (conteúdo (x), FUN, ...): todos os núcleos agendados encontraram erros no código do usuário Quando corro a linha final, recebi "Erro no UseMethod ...

1 a resposta

Procurar programaticamente um símbolo de ticker em R

Eu tenho um campo de dados que contém nomes de empresas, como company <- c("Microsoft", "Apple", "Cloudera", "Ford") > company Company 1 Microsoft 2 Apple 3 Cloudera 4 Forde assim por diante. O pacotetm.plugin.webmining permite consultar dados ...

1 a resposta

tm perde os metadados ao aplicar tm_map

Eu tenho um (pequeno) problema com a biblioteca tm r. diga que eu tenho um corpus: # boilerplate bcorp <- c("one","two","three","four","five") myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US")) tdm <- TermDocumentMatrix(myCorpus) ...

2 a resposta

Removendo palavras muito comuns (ocorrem em mais de 80% dos documentos) em R

Estou trabalhando com o pacote 'tm' para criar um corpus. Eu fiz a maioria das etapas de pré-processamento. O restante é remover palavras muito comuns (termos que ocorrem em mais de 80% dos documentos). Alguém pode me ajudar com isso? dsc <- ...