R romper el cuerpo en oraciones

Question

Sep 10, 2013, 09:24 AM

R romper el cuerpo en oraciones

Tengo varios documentos PDF, que he leído en un corpus con bibliotecatm. ¿Cómo se puede romper el cuerpo en oraciones?

Se puede hacer leyendo el archivo conreadLines seguido porsentSplit del paqueteqdap [*]. Esa función requiere un marco de datos. También se requeriría abandonar el corpus y leer todos los archivos individualmente.

¿Cómo puedo pasar la función?sentSplit {qdap} sobre un corpus entm? ¿O hay un mejor camino?.

Nota: habia una funcionsentDetect en bibliotecaopenNLP, que es ahoraMaxent_Sent_Token_Annotator - se aplica la misma pregunta: ¿cómo se puede combinar esto con un corpus [tm]?