R quebra o corpus em frases

Question

Sep 10, 2013, 09:24 AM

R quebra o corpus em frases

Eu tenho um número de documentos PDF, que eu li em um corpus com bibliotecatm. Como se pode quebrar o corpus em frases?

Isso pode ser feito lendo o arquivo comreadLines Seguido porsentSplit do pacoteqdap [*] Essa função requer um dataframe. Também seria necessário abandonar o corpus e ler todos os arquivos individualmente.

Como posso passar a funçãosentSplit {qdap} sobre um corpus emtm? Ou há uma maneira melhor?.

Nota: havia uma funçãosentDetect na bibliotecaopenNLPque agora éMaxent_Sent_Token_Annotator - a mesma pergunta se aplica: como isso pode ser combinado com um corpus [tm]?