Resultados da pesquisa a pedido "text-mining"
lista de frequências de palavras usando R
Eu tenho usado o pacote tm para executar alguma análise de texto. Meu problema é com a criação de uma lista com palavras e suas freqüências associadas com o ...
Use scikit-learn TfIdf com gensim LDA
Eu usei várias versões do TFIDF no scikit aprender a modelar alguns dados de texto.
Encontrando ngrams em R e comparando ngrams em corpora
Estou começando com o pacote tm em R, então por favor, tenha paciência comigo e peço desculpas pela grande e velha parede de texto. Eu criei um corpus razoav...
Use R para converter arquivos PDF em arquivos de texto para mineração de texto
Eu tenho quase mil artigos de periódicos em pdf em uma pasta. Preciso enviar uma mensagem de texto com os resumos de todos os artigos de toda a pasta. Agora estou fazendo o seguinte: dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf ...
Soma de linhas para matriz de documentos a termo grande / simple_triplet_matrix ?? {pacote tm}
Então, eu tenho uma matriz termo-documento muito grande: > class(ph.DTM) [1] "TermDocumentMatrix" "simple_triplet_matrix" > ph.DTM A term-document matrix (109996 terms, 262811 documents) Non-/sparse entries: 3705693/28904453063 Sparsity : 100% ...
Como calcular o TF * IDF para um único novo documento a ser classificado?
Estou usando vetores de termo de documento para representar uma coleção de documentos. eu usoTF * IDF [http://en.wikipedia.org/wiki/Tf%E2%80%93idf]para calcular o termo ponderação para cada vetor de documento. Então eu poderia usar essa matriz ...
No pacote R tm, construa o corpus FROM Document-Term-Matrix
É simples criar uma matriz de termos de documento a partir de um corpus com o pacote tm. Eu gostaria de construir um corpus a partir de uma matriz termo-documento. Seja M o número de documentos em um conjunto de documentos. Seja V o número ...
R-Project nenhum método aplicável para 'meta' aplicado a um objeto da classe “personagem”
Estou tentando executar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...