Resultados da pesquisa a pedido "google-cloud-dataflow"
Procurando novos arquivos que correspondam a um padrão de arquivo no Apache Beam
Eu tenho um diretório no GCS ou outro sistema de arquivos suportado no qual novos arquivos estão sendo gravados por um processo externo. Gostaria de escrever um pipeline de streaming do Apache Beam que monitora continuamente esse diretório em ...
Como usar destinos dinâmicos io de texto io de fluxo de dados em java
Olá, estou muito confuso Com a API de destinos de arquivos dinâmicos e não há documentos, então aqui estou. A situação é que eu tenho um PCollection e contém eventos pertencentes a diferentes partições. Quero dividi-los e gravá-los em diferentes ...
SortValues transforma a extensão Java SDK no Beam apenas em ambiente hadoop?
Eu tentei o código de exemplo deSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter]transformar usandoDirectRunner na máquina local (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...
Importar arquivo CSV do GCS para o BigQuery
Estou tentando descobrir como carregar um arquivo CSV do GCS no BigQuery. Pipeline abaixo: // Create the pipeline Pipeline p = Pipeline.create(options); // Create the PCollection from csv PCollection<String> lines ...
GCP Dataflow 2.0 PubSub para GCS
Estou com dificuldades para entender os conceitos de .withFileNamePolicy de TextIO.write (). Os requisitos para fornecer uma FileNamePolicy parecem incrivelmente complexos para fazer algo tão simples quanto especificar um bucket do GCS para ...
junte-se a dois json no Google Cloud Platform com fluxo de dados
Quero descobrir apenas funcionários do sexo feminino nos dois arquivos JSON diferentes e selecionar apenas os campos nos quais estamos interessados e gravar a saída em outro JSON. Também estou tentando implementá-lo na plataforma de nuvem do ...
A modelagem de fluxo de dados suporta a entrada de modelo para opções de coletor do BigQuery?
Como tenho um Dataflow estático em execução, gostaria de criar um modelo a partir deste, para que eu possa reutilizar facilmente o Dataflow sem nenhuma digitação na linha de comando. Seguindo oCriando ...
Forçando um painel / janela vazio no streaming no Apache Beam
Estou tentando implementar um pipeline e obtém um fluxo de dados e a cada minuto gera um True se houver algum elemento no intervalo de minutos ou False se não houver nenhum. O painel (com acionador de tempo permanente) ou a janela (janela fixa) ...
Estado contínuo no pipeline do Apache Beam
Estou desenvolvendo um pipeline de feixe para o corredor de fluxo de dados. Preciso da funcionalidade abaixo no meu caso de uso. Leia os eventos de entrada dos tópicos do Kafka. Cada valor da mensagem Kafka deriva[userID, Event] par.Para ...
FTP para armazenamento do Google
Alguns arquivos são enviados diariamente para um servidor FTP e preciso desses arquivos no Google Cloud Storage. Não quero incomodar os usuários que fazem upload dos arquivos para instalar qualquer software adicional e apenas deixá-los continuar ...