Resultados da pesquisa a pedido "google-cloud-dataflow"

2 a resposta

Procurando novos arquivos que correspondam a um padrão de arquivo no Apache Beam

Eu tenho um diretório no GCS ou outro sistema de arquivos suportado no qual novos arquivos estão sendo gravados por um processo externo. Gostaria de escrever um pipeline de streaming do Apache Beam que monitora continuamente esse diretório em ...

3 a resposta

Como usar destinos dinâmicos io de texto io de fluxo de dados em java

Olá, estou muito confuso Com a API de destinos de arquivos dinâmicos e não há documentos, então aqui estou. A situação é que eu tenho um PCollection e contém eventos pertencentes a diferentes partições. Quero dividi-los e gravá-los em diferentes ...

1 a resposta

SortValues transforma a extensão Java SDK no Beam apenas em ambiente hadoop?

Eu tentei o código de exemplo deSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter]transformar usandoDirectRunner na máquina local (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...

1 a resposta

Importar arquivo CSV do GCS para o BigQuery

Estou tentando descobrir como carregar um arquivo CSV do GCS no BigQuery. Pipeline abaixo: // Create the pipeline Pipeline p = Pipeline.create(options); // Create the PCollection from csv PCollection<String> lines ...

2 a resposta

GCP Dataflow 2.0 PubSub para GCS

Estou com dificuldades para entender os conceitos de .withFileNamePolicy de TextIO.write (). Os requisitos para fornecer uma FileNamePolicy parecem incrivelmente complexos para fazer algo tão simples quanto especificar um bucket do GCS para ...

2 a resposta

junte-se a dois json no Google Cloud Platform com fluxo de dados

Quero descobrir apenas funcionários do sexo feminino nos dois arquivos JSON diferentes e selecionar apenas os campos nos quais estamos interessados e gravar a saída em outro JSON. Também estou tentando implementá-lo na plataforma de nuvem do ...

1 a resposta

A modelagem de fluxo de dados suporta a entrada de modelo para opções de coletor do BigQuery?

Como tenho um Dataflow estático em execução, gostaria de criar um modelo a partir deste, para que eu possa reutilizar facilmente o Dataflow sem nenhuma digitação na linha de comando. Seguindo oCriando ...

2 a resposta

Forçando um painel / janela vazio no streaming no Apache Beam

Estou tentando implementar um pipeline e obtém um fluxo de dados e a cada minuto gera um True se houver algum elemento no intervalo de minutos ou False se não houver nenhum. O painel (com acionador de tempo permanente) ou a janela (janela fixa) ...

1 a resposta

Estado contínuo no pipeline do Apache Beam

Estou desenvolvendo um pipeline de feixe para o corredor de fluxo de dados. Preciso da funcionalidade abaixo no meu caso de uso. Leia os eventos de entrada dos tópicos do Kafka. Cada valor da mensagem Kafka deriva[userID, Event] par.Para ...

4 a resposta

FTP para armazenamento do Google

Alguns arquivos são enviados diariamente para um servidor FTP e preciso desses arquivos no Google Cloud Storage. Não quero incomodar os usuários que fazem upload dos arquivos para instalar qualquer software adicional e apenas deixá-los continuar ...