Resultados de la búsqueda a petición "apache-beam"

1 la respuesta

La indexación con estado hace que ParDo se ejecute con un solo subproceso en Dataflow Runner

Estamos generando un índice secuencial en un ParDo usando Java SDK 2.0.0 de Beam. Al igual que el ejemplo de índice con estado simple en Beam'sintroducción al procesamiento con ...

2 la respuesta

Observar nuevos archivos que coincidan con un patrón de archivos en Apache Beam

Tengo un directorio en GCS u otro sistema de archivos compatible en el que un proceso externo escribe nuevos archivos. Me gustaría escribir una canalización de transmisión de Apache Beam que supervise continuamente este directorio en busca de ...

0 la respuesta

IllegalArgumentException: no se puede convertir la URL (jar: file: /app.jar! / BOOT-INF / classes! /) En un archivo

Aplicación Spring Boot 2.0.0.RC integrada con Google Dataflow y otros servicios e implementada con el siguiente comando mavenmvn appengine:deploy. La compilación se realiza correctamente en AppEngine y se crea una instancia. El problema se ...

1 la respuesta

importar conflicto de metaclase apache_beam

Cuando intento importar el haz de Apache, aparece el siguiente error. >>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...

1 la respuesta

BigQuery writeTableRows Siempre escribiendo en el búfer

Estamos tratando de escribir en Big Query usando Apache Beam y avro. Lo siguiente parece funcionar bien: - p.apply("Input", AvroIO.read(DataStructure.class).from("AvroSampleFile.avro")) .apply("Transform", ParDo.of(new ...

2 la respuesta

Forzar un panel / ventana vacío en la transmisión en Apache Beam

Estoy tratando de implementar una tubería y toma una secuencia de datos y cada minuto genera un Verdadero si hay algún elemento en el intervalo de minutos o Falso si no hay ninguno. El panel (con disparador de tiempo indefinido) o la ventana ...

1 la respuesta

Solución de problemas de errores de importación de la tubería de viga apache [los objetos BoundedSource son mayores que el límite permitido]

Tengo un montón de archivos de texto (~ 1M) almacenados en Google Cloud Storage. Cuando leo estos archivos en la tubería de Google Cloud DataFlow para su procesamiento, siempre aparece el siguiente error: Total size of the BoundedSource objects ...

1 la respuesta

Batch PCollection en Beam / Dataflow

Tengo una PCollection en GCP Dataflow / Apache Beam. En lugar de procesarlo uno por uno, necesito combinar "por N". Algo comogrouped(N). Entonces, en caso de procesamiento acotado, se agrupará por 10 artículos en lote y el último lote con lo que ...

1 la respuesta

Cómo combinar la transmisión de datos con un gran conjunto de datos históricos en Dataflow / Beam

Estoy investigando el procesamiento de registros de sesiones de usuario web a través de Google Dataflow / Apache Beam y necesito combinar los registros del usuario a medida que ingresan (transmisión) con el historial de la sesión de un usuario ...

1 la respuesta

¿La plantilla de Dataflow admite la entrada de plantillas para las opciones de hundimiento de BigQuery?

Como tengo un flujo de datos estático en funcionamiento, me gustaría crear una plantilla a partir de este para permitirme reutilizar fácilmente el flujo de datos sin escribir ninguna línea de comando. Siguiendo elCrear ...