Migración de datos de 50 TB del clúster local de Hadoop a Google Cloud Storage
Estoy tratando de migrar datos existentes (JSON) en mi clúster Hadoop a Google Cloud Storage.
He explorado GSUtil y parece que es la opción recomendada para mover grandes conjuntos de datos a GCS. Parece que puede manejar grandes conjuntos de datos. Sin embargo, parece que GSUtil solo puede mover datos desde la máquina local a GCS o S3 <-> GCS, sin embargo, no puede mover datos desde el clúster local de Hadoop.
¿Cuál es una forma recomendada de mover datos del clúster local de Hadoop a GCS?
En el caso de GSUtil, ¿puede mover directamente los datos del clúster local de Hadoop (HDFS) a GCS o primero necesita copiar archivos en la máquina que ejecuta GSUtil y luego transferirlos a GCS?
¿Cuáles son las ventajas y desventajas de usar las bibliotecas del lado del cliente de Google (API de Java) frente a GSUtil?
Muchas gracias,