Migración de datos de 50 TB del clúster local de Hadoop a Google Cloud Storage

Estoy tratando de migrar datos existentes (JSON) en mi clúster Hadoop a Google Cloud Storage.

He explorado GSUtil y parece que es la opción recomendada para mover grandes conjuntos de datos a GCS. Parece que puede manejar grandes conjuntos de datos. Sin embargo, parece que GSUtil solo puede mover datos desde la máquina local a GCS o S3 <-> GCS, sin embargo, no puede mover datos desde el clúster local de Hadoop.

¿Cuál es una forma recomendada de mover datos del clúster local de Hadoop a GCS?

En el caso de GSUtil, ¿puede mover directamente los datos del clúster local de Hadoop (HDFS) a GCS o primero necesita copiar archivos en la máquina que ejecuta GSUtil y luego transferirlos a GCS?

¿Cuáles son las ventajas y desventajas de usar las bibliotecas del lado del cliente de Google (API de Java) frente a GSUtil?

Muchas gracias,

Respuestas a la pregunta(2)

Su respuesta a la pregunta