BigQuery writeTableRows Siempre escribiendo en el búfer
Estamos tratando de escribir en Big Query usando Apache Beam y avro.
Lo siguiente parece funcionar bien: -
p.apply("Input", AvroIO.read(DataStructure.class).from("AvroSampleFile.avro"))
.apply("Transform", ParDo.of(new CustomTransformFunction()))
.apply("Load", BigQueryIO.writeTableRows().to(table).withSchema(schema));
Luego intentamos usarlo de la siguiente manera para obtener datos de Google Pub / Sub
p.begin()
.apply("Input", PubsubIO.readAvros(DataStructure.class).fromTopic("topicName"))
.apply("Transform", ParDo.of(new CustomTransformFunction()))
.apply("Write", BigQueryIO.writeTableRows()
.to(table)
.withSchema(schema)
.withTimePartitioning(timePartitioning)
.withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED)
.withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND));
p.run().waitUntilFinish();
Cuando hacemos esto, siempre lo empuja al búfer y Big Query parece tardar mucho tiempo en leerse del búfer. ¿Alguien puede decirme por qué lo anterior no escribirá los registros directamente en las tablas de Big Query?
ACTUALIZACIÓN: - Parece que necesito agregar la siguiente configuración, pero esto arroja una excepción java.lang.IllegalArgumentException.
.withMethod(Method.FILE_LOADS)
.withTriggeringFrequency(org.joda.time.Duration.standardMinutes(2))