Точная репликация предварительной обработки текста R в Python
Я хотел бы предварительно обработать корпус документов, используя Python, так же, как я могу в R. Например, учитывая исходный корпус,corpus
Я хотел бы закончить с предварительно обработанным корпусом, который соответствует произведенному с использованием следующего кода R:
library(tm)
library(SnowballC)
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c("myword", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
Есть ли простой или простой - желательно предварительно собранный - способ сделать это в Python? Есть ли способ обеспечить точно такие же результаты?
Например, я хотел бы провести предварительную обработку
@ Яблочные амбушюры УДИВИТЕЛЬНЫ! Лучший звук из наушников-вкладышей, который у меня когда-либо был!
в
амбушюры лучший звук Inear Headphon Ive когда-либо