Хороший способ отслеживать, какой фрагмент текста принадлежит какому файлу. Это также делает такие вещи, как настроение или анализ любого другого типа, простым на уровне документа.
я есть список HTML-файлов, я взял некоторые тексты из Интернета и заставил их читать сread_html
.
Мои имена файлов похожи на:
a1 <- read_html(link of the text)
a2 <- read_html(link of the text)
.
.
. ## until:
a100 <- read_html(link of the text)
Я пытаюсь создать корпус с этим.
Любые идеи, как я могу это сделать?
Благодарю.