Escribir la salida de una tubería de flujo de datos en un destino particionado

Question

Jan 15, 2016, 12:31 AM

google-cloud-storage google-cloud-dataflow

Escribir la salida de una tubería de flujo de datos en un destino particionado

Tenemos una sola fuente de eventos de transmisión con miles de eventos por segundo, todos estos eventos están marcados con una identificación que identifica a cuál de nuestras decenas de miles de clientes pertenece el evento. Nos gustaría utilizar este origen de eventos para llenar un almacén de datos (en modo de transmisión), sin embargo, nuestro origen de eventos no es persistente, por lo que también nos gustaría archivar los datos sin procesar en GCS para que podamos reproducirlos a través de nuestros datos tubería de almacén si hacemos un cambio que lo requiera. Debido a los requisitos de retención de datos, cualquier dato sin procesar que conservemos debe ser particionado por el cliente, para que podamos eliminarlo fácilmente.

¿Cuál sería la forma más sencilla de resolver esto en Dataflow? Actualmente estamos creando un trabajo de flujo de datos con un sumidero personalizado que escribe los datos en archivos por cliente en GCS / BigQuery, ¿es sensato?