R quebra o corpus em frases
Eu tenho um número de documentos PDF, que eu li em um corpus com bibliotecatm
. Como se pode quebrar o corpus em frases?
Isso pode ser feito lendo o arquivo comreadLines
Seguido porsentSplit
do pacoteqdap
[*] Essa função requer um dataframe. Também seria necessário abandonar o corpus e ler todos os arquivos individualmente.
Como posso passar a funçãosentSplit
{qdap
} sobre um corpus emtm
? Ou há uma maneira melhor?.
Nota: havia uma funçãosentDetect
na bibliotecaopenNLP
que agora éMaxent_Sent_Token_Annotator
- a mesma pergunta se aplica: como isso pode ser combinado com um corpus [tm]?