Como aplicar pos_tag_sents () ao dataframe do pandas com eficiência

Question

Jan 16, 2017, 11:46 AM

python pandas python-3.x nltk pos-tagger

Como aplicar pos_tag_sents () ao dataframe do pandas com eficiência

Nas situações em que você deseja marcar com tag uma coluna de texto armazenada em um dataframe do pandas com 1 frase por linha, a maioria das implementações no SO usa o método apply

dfData['POSTags']= dfData['SourceText'].apply(
                 lamda row: [pos_tag(word_tokenize(row) for item in row])

A documentação do NLTKrecomenda usar o pos_tag_sents () para marcação eficiente de mais de uma frase.

Isso se aplica a este exemplo e, em caso afirmativo, o código seria tão simples quanto alterarpso_tag parapos_tag_sents ou NLTK significa fontes de texto de parágrafos

Como mencionado nos comentáriospos_tag_sents() visa reduzir o carregamento do preceptor cada vezmas a questão é como fazer isso e ainda produzir uma coluna em um dataframe de pandas?

Link para o conjunto de dados de amostra 20kRows