Como o número de partições afeta `wholeTextFiles` e` textFiles`?
Na faísca, eu entendo como usarwholeTextFiles
etextFiles
, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora:
wholeTextFiles
, caso contrário, usetextFiles
.Eu pensaria que, por padrão,wholeTextFiles
etextFiles
partição pelo conteúdo do arquivo e por linhas, respectivamente. Mas, ambos permitem alterar o parâmetrominPartitions
.
Então, como a alteração das partições afeta o modo como elas são processadas?
Por exemplo, digamos que eu tenha um arquivo muito grande com 100 linhas. Qual seria a diferença entre processá-lo comowholeTextFiles
com 100 partições e processando-o comotextFile
(que particiona linha por linha) usando o padrão da partição 100.
Qual é a diferença entre estes?