Resultados da pesquisa a pedido "google-cloud-dataflow"
Gravando valores diferentes em diferentes tabelas do BigQuery no Apache Beam
Suponha que eu tenho umPCollection<Foo> e quero gravá-lo em várias tabelas do BigQuery, escolhendo uma tabela potencialmente diferente para cadaFoo. Como posso fazer isso usando o Apache BeamBigQueryIO API?
Pipeline de fluxo de dados do Google com cache local da instância + chamadas externas à API REST
Queremos criar um pipeline de fluxo de dados do Cloud Dataflow que ingere eventos do Pubsub e execute várias operações semelhantes a ETL em cada evento individual. Uma dessas operações é que cada evento tem umID de dispositivo que precisam ser ...
Executar ação após o pipeline do Dataflow ter processado todos os dados
É possível executar uma ação depois que um trabalho em lote do Dataflow terminar de processar todos os dados? Especificamente, eu gostaria de mover o arquivo de texto que o pipeline acabou de processar para um bucket GCS diferente. Não ...
Coleta de PC em lote no feixe / fluxo de dados
Eu tenho uma PCollection no GCP Dataflow / Apache Beam. Em vez de processá-lo um por um, preciso combinar "por N". Algo comogrouped(N). Portanto, no caso de processamento limitado, ele agrupará 10 itens no lote e o último lote com o que sobrar. ...
Processando a ordenação total de eventos por chave usando o Apache Beam
Contexto do ProblemaEu estou tentando gerar uma ordem total (linear) de itens de evento por chave de um fluxo em tempo real em que o pedido é o tempo do evento (derivado da carga útil do evento). AproximaçãoEu tentei implementar isso usando o ...
Apache Beam: Não foi possível encontrar o registrador para gs
O feixe está usando os doisauto / valor [https://github.com/google/auto/tree/master/value]eauto-serviço [https://github.com/google/auto/tree/master/service]Ferramentas. Quero executar um pipeline com o Dataflow runner e os dados são armazenados ...
Solução de problemas de erros de importação de pipeline do apache beam [objetos BoundedSource são maiores que o limite permitido]
Eu tenho vários arquivos de texto (~ 1 milhão) armazenados no armazenamento em nuvem do Google. Quando leio esses arquivos no pipeline do Google Cloud DataFlow para processamento, sempre recebo o seguinte erro: Total size of the BoundedSource ...
Apache Beam Protobuf de entidade do Google Datastore ReadFromDatastore
Estou tentando usar a API de armazenamento de dados do google do apache beam para ReadFromDatastore p = beam.Pipeline(options=options) (p | 'Read from Datastore' >> ReadFromDatastore(gcloud_options.project, query) | 'reformat' ...
O trabalho de streaming de fluxo de dados não está escalando o último trabalhador
Meu trabalho de fluxo de dados de streaming (2017-09-08_03_55_43-9675407418829265662) usandoApache Beam SDK for Java 2.1.0 não ultrapassará 1 Trabalhador mesmo com uma fila crescente de pubsub (agora 100 mil mensagens não entregues) - você tem ...
TextIO. Leia vários arquivos do GCS usando o padrão {}
Eu tentei usar o seguinte TextIO.Read.from("gs://xyz.abc/xxx_{2017-06-06,2017-06-06}.csv")Esse padrão não funcionou, como eu java.lang.IllegalStateException: Unable to find any files ...