R разбить корпус на предложения
У меня есть ряд документов в формате PDF, которые я прочитал в корпусе с библиотекойtm
, Как можно разбить корпус на предложения?
Это можно сделать, прочитав файл сreadLines
с последующимsentSplit
из пакетаqdap
[*]. Эта функция требует фрейма данных. Также потребуется отказаться от корпуса и прочитать все файлы в отдельности.
Как я могу передать функциюsentSplit
{qdap
} через корпус вtm
? Или есть лучший способ?
Примечание: была функцияsentDetect
в библиотекеopenNLP
, который сейчасMaxent_Sent_Token_Annotator
- применяется тот же вопрос: как это можно сочетать с корпусом?