ETL e análise de arquivos CSV no Cloud Dataflow

Eu sou novo no fluxo de dados em nuvem e Java, então espero que essa seja a pergunta certa a ser feita.

Eu tenho um arquivo CSV com n número de colunas e linhas que poderiam ser uma seqüência de caracteres, número inteiro ou carimbo de data / hora. Preciso criar um novo PCollection para cada coluna?

A maior parte da documentação que encontrei nos exemplos é semelhante a:

PCollection<String> data = p.apply(TextIO.Read.from("gs://abc/def.csv"));

Mas, para mim, não faz sentido importar um arquivo csv inteiro como uma string. O que estou perdendo aqui e como devo configurar meu PCollections?

questionAnswers(2)

yourAnswerToTheQuestion