R romper el cuerpo en oraciones
Tengo varios documentos PDF, que he leído en un corpus con bibliotecatm
. ¿Cómo se puede romper el cuerpo en oraciones?
Se puede hacer leyendo el archivo conreadLines
seguido porsentSplit
del paqueteqdap
[*]. Esa función requiere un marco de datos. También se requeriría abandonar el corpus y leer todos los archivos individualmente.
¿Cómo puedo pasar la función?sentSplit
{qdap
} sobre un corpus entm
? ¿O hay un mejor camino?.
Nota: habia una funcionsentDetect
en bibliotecaopenNLP
, que es ahoraMaxent_Sent_Token_Annotator
- se aplica la misma pregunta: ¿cómo se puede combinar esto con un corpus [tm]?