Resultados da pesquisa a pedido "tm"

2 a resposta

Use R para converter arquivos PDF em arquivos de texto para mineração de texto

Eu tenho quase mil artigos de periódicos em pdf em uma pasta. Preciso enviar uma mensagem de texto com os resumos de todos os artigos de toda a pasta. Agora estou fazendo o seguinte: dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf ...

3 a resposta

Dictionary () não é mais suportado no pacote tm. Como emendar código?

Acabei de notar que, depois de atualizar paratm v. 0.5-10 a funçãoDictionary() não é mais suportado. Isso é um erro? Ou foi preterido? Devo usar outra função para criar um dicionário? Já que tenho muitas linhas de código a serem alteradas agora, ...

4 a resposta

Erro DocumentTermMatrix no argumento Corpus

Eu tenho o seguinte código: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, ...

0 a resposta

O DocumentTermMatrix falha com um erro estranho apenas quando # terms> 3000

Meu código abaixo funciona bem, a menos que eu use create a DocumentTermMatrix com mais de 3000 termos. Está linha: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train, list(dictionary = ...

1 a resposta

No pacote R tm, construa o corpus FROM Document-Term-Matrix

É simples criar uma matriz de termos de documento a partir de um corpus com o pacote tm. Eu gostaria de construir um corpus a partir de uma matriz termo-documento. Seja M o número de documentos em um conjunto de documentos. Seja V o número ...

4 a resposta

R-Project nenhum método aplicável para 'meta' aplicado a um objeto da classe “personagem”

Estou tentando executar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...

3 a resposta

R Corpus está bagunçando meu texto codificado em UTF-8

Estou simplesmente tentando criar um corpus a partir de russo, texto codificado em UTF-8. O problema é que o método Corpus dotm O pacote não está codificando as seqüências corretamente. Aqui está um exemplo reproduzível do meu ...

2 a resposta

R tm In mclapply (conteúdo (x), FUN,…): todos os núcleos agendados encontraram erros no código do usuário

Quando executo os seguintes códigos na penúltima linha, recebi a mensagem de aviso: No mclapply (conteúdo (x), FUN, ...): todos os núcleos agendados encontraram erros no código do usuário Quando corro a linha final, recebi "Erro no UseMethod ...

4 a resposta

stemCompletion não está funcionando

Estou usando o pacote tm para análise de texto de dados de reparo, a leitura de dados no quadro de dados, a conversão para o objeto Corpus e a aplicação de vários métodos para limpar dados usando espaço menor, stipWhitespace, removestopwords e ...

1 a resposta

Procurar programaticamente um símbolo de ticker em R

Eu tenho um campo de dados que contém nomes de empresas, como company <- c("Microsoft", "Apple", "Cloudera", "Ford") > company Company 1 Microsoft 2 Apple 3 Cloudera 4 Forde assim por diante. O pacotetm.plugin.webmining permite consultar dados ...