Resultados da pesquisa a pedido "apache-beam"

1 a resposta

SortValues transforma a extensão Java SDK no Beam apenas em ambiente hadoop?

Eu tentei o código de exemplo deSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter]transformar usandoDirectRunner na máquina local (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...

2 a resposta

junte-se a dois json no Google Cloud Platform com fluxo de dados

Quero descobrir apenas funcionários do sexo feminino nos dois arquivos JSON diferentes e selecionar apenas os campos nos quais estamos interessados e gravar a saída em outro JSON. Também estou tentando implementá-lo na plataforma de nuvem do ...

1 a resposta

A modelagem de fluxo de dados suporta a entrada de modelo para opções de coletor do BigQuery?

Como tenho um Dataflow estático em execução, gostaria de criar um modelo a partir deste, para que eu possa reutilizar facilmente o Dataflow sem nenhuma digitação na linha de comando. Seguindo oCriando ...

2 a resposta

Forçando um painel / janela vazio no streaming no Apache Beam

Estou tentando implementar um pipeline e obtém um fluxo de dados e a cada minuto gera um True se houver algum elemento no intervalo de minutos ou False se não houver nenhum. O painel (com acionador de tempo permanente) ou a janela (janela fixa) ...

1 a resposta

Estado contínuo no pipeline do Apache Beam

Estou desenvolvendo um pipeline de feixe para o corredor de fluxo de dados. Preciso da funcionalidade abaixo no meu caso de uso. Leia os eventos de entrada dos tópicos do Kafka. Cada valor da mensagem Kafka deriva[userID, Event] par.Para ...

1 a resposta

Gravando valores diferentes em diferentes tabelas do BigQuery no Apache Beam

Suponha que eu tenho umPCollection<Foo> e quero gravá-lo em várias tabelas do BigQuery, escolhendo uma tabela potencialmente diferente para cadaFoo. Como posso fazer isso usando o Apache BeamBigQueryIO API?

1 a resposta

Pipeline de fluxo de dados do Google com cache local da instância + chamadas externas à API REST

Queremos criar um pipeline de fluxo de dados do Cloud Dataflow que ingere eventos do Pubsub e execute várias operações semelhantes a ETL em cada evento individual. Uma dessas operações é que cada evento tem umID de dispositivo que precisam ser ...

1 a resposta

Processando a ordenação total de eventos por chave usando o Apache Beam

Contexto do ProblemaEu estou tentando gerar uma ordem total (linear) de itens de evento por chave de um fluxo em tempo real em que o pedido é o tempo do evento (derivado da carga útil do evento). AproximaçãoEu tentei implementar isso usando o ...

1 a resposta

Coleta de PC em lote no feixe / fluxo de dados

Eu tenho uma PCollection no GCP Dataflow / Apache Beam. Em vez de processá-lo um por um, preciso combinar "por N". Algo comogrouped(N). Portanto, no caso de processamento limitado, ele agrupará 10 itens no lote e o último lote com o que sobrar. ...

2 a resposta

Apache Beam: Não foi possível encontrar o registrador para gs

O feixe está usando os doisauto / valor [https://github.com/google/auto/tree/master/value]eauto-serviço [https://github.com/google/auto/tree/master/service]Ferramentas. Quero executar um pipeline com o Dataflow runner e os dados são armazenados ...