Exakte Replikation der R-Text-Vorverarbeitung in Python

Question

Apr 01, 2014, 11:38 PM

Exakte Replikation der R-Text-Vorverarbeitung in Python

Ich möchte einen Korpus von Dokumenten mit Python auf die gleiche Weise vorverarbeiten, wie ich es in R tun kann.corpusAm Ende möchte ich einen vorverarbeiteten Korpus haben, der dem entspricht, der mit dem folgenden R-Code hergestellt wurde:

library(tm)
library(SnowballC)

corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c("myword", stopwords("english")))
corpus = tm_map(corpus, stemDocument)

Gibt es eine einfache oder unkomplizierte - vorzugsweise vorgefertigte - Methode, um dies in Python zu tun? Gibt es eine Möglichkeit, genau die gleichen Ergebnisse zu erzielen?

Zum Beispiel möchte ich vorverarbeiten

@ Apple Ear Pods sind erstaunlich! Bester Sound mit In-Ear-Kopfhörern, den ich je hatte!

in

ear pod ist der beste Sound, den es jemals in einem Kopfhörer gegeben hat