Точная репликация предварительной обработки текста R в Python

Question

Apr 01, 2014, 11:38 PM

Точная репликация предварительной обработки текста R в Python

Я хотел бы предварительно обработать корпус документов, используя Python, так же, как я могу в R. Например, учитывая исходный корпус,corpusЯ хотел бы закончить с предварительно обработанным корпусом, который соответствует произведенному с использованием следующего кода R:

library(tm)
library(SnowballC)

corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c("myword", stopwords("english")))
corpus = tm_map(corpus, stemDocument)

Есть ли простой или простой - желательно предварительно собранный - способ сделать это в Python? Есть ли способ обеспечить точно такие же результаты?

Например, я хотел бы провести предварительную обработку

@ Яблочные амбушюры УДИВИТЕЛЬНЫ! Лучший звук из наушников-вкладышей, который у меня когда-либо был!

в

амбушюры лучший звук Inear Headphon Ive когда-либо

Точная репликация предварительной обработки текста R в Python

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Точная репликация предварительной обработки текста R в Python

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы