Medios más eficientes de crear un corpus y DTM con 4M filas

Question

Aug 15, 2014, 06:57 PM

corpus r qdap term-document-matrix data.table

Medios más eficientes de crear un corpus y DTM con 4M filas

Mi archivo tiene más de 4 millones de filas y necesito una forma más eficiente de convertir mis datos en un corpus y una matriz de términos de documentos para poder pasarlos a un clasificador bayesiano.

Considere el siguiente código:

library(tm)

GetCorpus <-function(textVector)
{
  doc.corpus <- Corpus(VectorSource(textVector))
  doc.corpus <- tm_map(doc.corpus, tolower)
  doc.corpus <- tm_map(doc.corpus, removeNumbers)
  doc.corpus <- tm_map(doc.corpus, removePunctuation)
  doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
  doc.corpus <- tm_map(doc.corpus, stemDocument, "english")
  doc.corpus <- tm_map(doc.corpus, stripWhitespace)
  doc.corpus <- tm_map(doc.corpus, PlainTextDocument)
  return(doc.corpus)
}

data <- data.frame(
  c("Let the big dogs hunt","No holds barred","My child is an honor student"), stringsAsFactors = F)

corp <- GetCorpus(data[,1])

inspect(corp)

dtm <- DocumentTermMatrix(corp)

inspect(dtm)

La salida:

> inspect(corp)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
let big dogs hunt

[[2]]
<<PlainTextDocument (metadata: 7)>>
 holds bar

[[3]]
<<PlainTextDocument (metadata: 7)>>
 child honor stud
> inspect(dtm)
<<DocumentTermMatrix (documents: 3, terms: 9)>>
Non-/sparse entries: 9/18
Sparsity           : 67%
Maximal term length: 5
Weighting          : term frequency (tf)

              Terms
Docs           bar big child dogs holds honor hunt let stud
  character(0)   0   1     0    1     0     0    1   1    0
  character(0)   1   0     0    0     1     0    0   0    0
  character(0)   0   0     1    0     0     1    0   0    1

Mi pregunta es, ¿Qué puedo usar para crear un corpus y un DTM más rápido? Parece ser extremadamente lento si uso más de 300k filas.

He escuchado que podría usardata.table pero no estoy seguro de cómo.

También he mirado elqdap paquete, pero me da un error al intentar cargar el paquete, además ni siquiera sé si funcionará.

Árbitro.http://cran.r-project.org/web/packages/qdap/qdap.pdf