Divisão de texto em palavras com R e cSplit ()
Estou tentando dividir uma série de frases em palavras separadas, ou seja, para tokenizar o texto.
Encontrei um pacote Rsplitstackshape
que é capaz de fazer o que eu quero, bem quase ... trunca a saída para as primeiras e últimas 5 linhas.
Enfim, é isso que eu preciso fazer:
id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis
4 nunc fringilla sodales
5 Etiam tempor ligula vitae
6 pellentesque dictum
7 Quisque non justo scelerisque
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa
Resultado:
id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...
Ou seja, preciso de palavras em linhas separadas, mas com o ID da frase a que pertence.
eu estava tentandocSplit(data, "text", " ", "long")
, mas trunca ..
Atualizar. PARA SUA INFORMAÇÃO,aqui é como fazer o inverso