Resultados de la búsqueda a petición "google-cloud-dataflow"
Apache Beam: no se puede encontrar el registrador para gs
Beam está utilizando tanto Googleauto / valor [https://github.com/google/auto/tree/master/value]yauto servicio [https://github.com/google/auto/tree/master/service]herramientas. Quiero ejecutar una tubería con Dataflow Runner y los datos se ...
TextIO. Leer múltiples archivos de GCS usando el patrón {}
Intenté usar lo siguiente TextIO.Read.from("gs://xyz.abc/xxx_{2017-06-06,2017-06-06}.csv")Ese patrón no funcionó, como entiendo java.lang.IllegalStateException: Unable to find any files ...
Canalización de flujo de datos de Google con caché local de instancia + llamadas a la API REST externa
Queremos construir una tubería de Streaming de flujo de datos en la nube que ingiera eventos de Pubsub y realice múltiples operaciones similares a ETL en cada evento individual. Una de estas operaciones es que cada evento tiene unIdentificación ...
Solución de problemas de errores de importación de la tubería de viga apache [los objetos BoundedSource son mayores que el límite permitido]
Tengo un montón de archivos de texto (~ 1M) almacenados en Google Cloud Storage. Cuando leo estos archivos en la tubería de Google Cloud DataFlow para su procesamiento, siempre aparece el siguiente error: Total size of the BoundedSource objects ...
Pase los parámetros de las funciones de la nube al flujo de datos
Me gustaría pasar el nombre de archivo del archivo cargado en Google Cloud Storage de Cloud Functions a Dataflow para poder procesar el archivo cargado. El código que he escrito para Cloud Functions es const google = require('googleapis'); ...
¿La plantilla de Dataflow admite la entrada de plantillas para las opciones de hundimiento de BigQuery?
Como tengo un flujo de datos estático en funcionamiento, me gustaría crear una plantilla a partir de este para permitirme reutilizar fácilmente el flujo de datos sin escribir ninguna línea de comando. Siguiendo elCrear ...
El trabajo de transmisión de flujo de datos no está escalando más de 1 trabajador
Mi trabajo de flujo de datos de transmisión (2017-09-08_03_55_43-9675407418829265662) utilizandoApache Beam SDK for Java 2.1.0 no escalará a más de 1 trabajador incluso con una cola de pubsub creciente (ahora 100k mensajes no entregados). ¿Tiene ...
La indexación con estado hace que ParDo se ejecute con un solo subproceso en Dataflow Runner
Estamos generando un índice secuencial en un ParDo usando Java SDK 2.0.0 de Beam. Al igual que el ejemplo de índice con estado simple en Beam'sintroducción al procesamiento con ...
¿SortValues transforma la extensión SDK de Java en Beam solo en entornos hadoop?
He intentado el código de ejemplo deSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter]transformar usandoDirectRunner en máquina local (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...
Importar archivo CSV de GCS a BigQuery
Estoy tratando de descubrir cómo cargar un archivo CSV de GCS en BigQuery. Tubería a continuación: // Create the pipeline Pipeline p = Pipeline.create(options); // Create the PCollection from csv PCollection<String> lines ...