Particionar en chispa mientras lee desde RDBMS a través de JDBC
Estoy ejecutando spark en modo de clúster y leyendo datos de RDBMS a través de JDBC.
Según chispadocs, estos parámetros de partición describen cómo particionar la tabla cuando se lee en paralelo desde varios trabajadores:
partitionColumn
lowerBound
upperBound
numPartitions
Estos son parámetros opcionales.
¿Qué pasaría si no especifico esto?
¿Solo 1 trabajador leyó toda la información?Si aún se lee de forma paralela, ¿cómo divide los datos?