Exakte Replikation der R-Text-Vorverarbeitung in Python
Ich möchte einen Korpus von Dokumenten mit Python auf die gleiche Weise vorverarbeiten, wie ich es in R tun kann.corpus
Am Ende möchte ich einen vorverarbeiteten Korpus haben, der dem entspricht, der mit dem folgenden R-Code hergestellt wurde:
library(tm)
library(SnowballC)
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c("myword", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
Gibt es eine einfache oder unkomplizierte - vorzugsweise vorgefertigte - Methode, um dies in Python zu tun? Gibt es eine Möglichkeit, genau die gleichen Ergebnisse zu erzielen?
Zum Beispiel möchte ich vorverarbeiten
@ Apple Ear Pods sind erstaunlich! Bester Sound mit In-Ear-Kopfhörern, den ich je hatte!
in
ear pod ist der beste Sound, den es jemals in einem Kopfhörer gegeben hat