Resultados de la búsqueda a petición "apache-beam"
La indexación con estado hace que ParDo se ejecute con un solo subproceso en Dataflow Runner
Estamos generando un índice secuencial en un ParDo usando Java SDK 2.0.0 de Beam. Al igual que el ejemplo de índice con estado simple en Beam'sintroducción al procesamiento con ...
Observar nuevos archivos que coincidan con un patrón de archivos en Apache Beam
Tengo un directorio en GCS u otro sistema de archivos compatible en el que un proceso externo escribe nuevos archivos. Me gustaría escribir una canalización de transmisión de Apache Beam que supervise continuamente este directorio en busca de ...
IllegalArgumentException: no se puede convertir la URL (jar: file: /app.jar! / BOOT-INF / classes! /) En un archivo
Aplicación Spring Boot 2.0.0.RC integrada con Google Dataflow y otros servicios e implementada con el siguiente comando mavenmvn appengine:deploy. La compilación se realiza correctamente en AppEngine y se crea una instancia. El problema se ...
importar conflicto de metaclase apache_beam
Cuando intento importar el haz de Apache, aparece el siguiente error. >>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...
BigQuery writeTableRows Siempre escribiendo en el búfer
Estamos tratando de escribir en Big Query usando Apache Beam y avro. Lo siguiente parece funcionar bien: - p.apply("Input", AvroIO.read(DataStructure.class).from("AvroSampleFile.avro")) .apply("Transform", ParDo.of(new ...
Forzar un panel / ventana vacío en la transmisión en Apache Beam
Estoy tratando de implementar una tubería y toma una secuencia de datos y cada minuto genera un Verdadero si hay algún elemento en el intervalo de minutos o Falso si no hay ninguno. El panel (con disparador de tiempo indefinido) o la ventana ...
Solución de problemas de errores de importación de la tubería de viga apache [los objetos BoundedSource son mayores que el límite permitido]
Tengo un montón de archivos de texto (~ 1M) almacenados en Google Cloud Storage. Cuando leo estos archivos en la tubería de Google Cloud DataFlow para su procesamiento, siempre aparece el siguiente error: Total size of the BoundedSource objects ...
Batch PCollection en Beam / Dataflow
Tengo una PCollection en GCP Dataflow / Apache Beam. En lugar de procesarlo uno por uno, necesito combinar "por N". Algo comogrouped(N). Entonces, en caso de procesamiento acotado, se agrupará por 10 artículos en lote y el último lote con lo que ...
Cómo combinar la transmisión de datos con un gran conjunto de datos históricos en Dataflow / Beam
Estoy investigando el procesamiento de registros de sesiones de usuario web a través de Google Dataflow / Apache Beam y necesito combinar los registros del usuario a medida que ingresan (transmisión) con el historial de la sesión de un usuario ...
¿La plantilla de Dataflow admite la entrada de plantillas para las opciones de hundimiento de BigQuery?
Como tengo un flujo de datos estático en funcionamiento, me gustaría crear una plantilla a partir de este para permitirme reutilizar fácilmente el flujo de datos sin escribir ninguna línea de comando. Siguiendo elCrear ...