Resultados de la búsqueda a petición "google-cloud-dataflow"

2 la respuesta

Apache Beam: no se puede encontrar el registrador para gs

Beam está utilizando tanto Googleauto / valor [https://github.com/google/auto/tree/master/value]yauto servicio [https://github.com/google/auto/tree/master/service]herramientas. Quiero ejecutar una tubería con Dataflow Runner y los datos se ...

3 la respuesta

TextIO. Leer múltiples archivos de GCS usando el patrón {}

Intenté usar lo siguiente TextIO.Read.from("gs://xyz.abc/xxx_{2017-06-06,2017-06-06}.csv")Ese patrón no funcionó, como entiendo java.lang.IllegalStateException: Unable to find any files ...

1 la respuesta

Canalización de flujo de datos de Google con caché local de instancia + llamadas a la API REST externa

Queremos construir una tubería de Streaming de flujo de datos en la nube que ingiera eventos de Pubsub y realice múltiples operaciones similares a ETL en cada evento individual. Una de estas operaciones es que cada evento tiene unIdentificación ...

1 la respuesta

Solución de problemas de errores de importación de la tubería de viga apache [los objetos BoundedSource son mayores que el límite permitido]

Tengo un montón de archivos de texto (~ 1M) almacenados en Google Cloud Storage. Cuando leo estos archivos en la tubería de Google Cloud DataFlow para su procesamiento, siempre aparece el siguiente error: Total size of the BoundedSource objects ...

0 la respuesta

Pase los parámetros de las funciones de la nube al flujo de datos

Me gustaría pasar el nombre de archivo del archivo cargado en Google Cloud Storage de Cloud Functions a Dataflow para poder procesar el archivo cargado. El código que he escrito para Cloud Functions es const google = require('googleapis'); ...

1 la respuesta

¿La plantilla de Dataflow admite la entrada de plantillas para las opciones de hundimiento de BigQuery?

Como tengo un flujo de datos estático en funcionamiento, me gustaría crear una plantilla a partir de este para permitirme reutilizar fácilmente el flujo de datos sin escribir ninguna línea de comando. Siguiendo elCrear ...

2 la respuesta

El trabajo de transmisión de flujo de datos no está escalando más de 1 trabajador

Mi trabajo de flujo de datos de transmisión (2017-09-08_03_55_43-9675407418829265662) utilizandoApache Beam SDK for Java 2.1.0 no escalará a más de 1 trabajador incluso con una cola de pubsub creciente (ahora 100k mensajes no entregados). ¿Tiene ...

1 la respuesta

La indexación con estado hace que ParDo se ejecute con un solo subproceso en Dataflow Runner

Estamos generando un índice secuencial en un ParDo usando Java SDK 2.0.0 de Beam. Al igual que el ejemplo de índice con estado simple en Beam'sintroducción al procesamiento con ...

1 la respuesta

¿SortValues transforma la extensión SDK de Java en Beam solo en entornos hadoop?

He intentado el código de ejemplo deSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter]transformar usandoDirectRunner en máquina local (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...

1 la respuesta

Importar archivo CSV de GCS a BigQuery

Estoy tratando de descubrir cómo cargar un archivo CSV de GCS en BigQuery. Tubería a continuación: // Create the pipeline Pipeline p = Pipeline.create(options); // Create the PCollection from csv PCollection<String> lines ...