Resultados da pesquisa a pedido "google-cloud-dataproc"

1 a resposta

Conector BigQuery para Spark no Dataproc - não é possível autenticar usando o arquivo de chave da conta de serviço

Eu seguiUse o conector BigQuery com Spark [https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example] para obter com sucesso dados de um conjunto de dados disponível ao público. Agora, preciso acessar um conjunto de dados ...

4 a resposta

Vírus do Google Cloud Dataproc CrytalMiner (dr.who)

Após a criação de um cluster do dataproc, muitos trabalhos são enviados automaticamente ao ResourceManager pelo usuário dr.who. Isso está privando os recursos do cluster e, eventualmente, sobrecarrega o cluster. Há pouca ou nenhuma informação ...

1 a resposta

GCP Dataproc - configure o planejador justo do YARN

Eu estava tentando configurar um cluster de dataproc que computasse apenas um trabalho (ou no máximo trabalhos especificados) por vez e o restante estaria na fila. Eu encontrei esta solução,Como configurar a fila de aplicativos FIFO ...

1 a resposta

pyspark rdd isCheckPointed () é false

Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...

1 a resposta

Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc

Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...

2 a resposta

Spark streaming no dataproc lança FileNotFoundException

Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

2 a resposta

Qual conector HBase para Spark 2.0 devo usar?

Nossa pilha é composta pelo Google Data Proc (Spark 2.0) e Google BigTable (HBase 1.2.0) e estou procurando um conector que funcione com essas versões. O Spark 2.0 e o novo suporte à API DataSet não estão claros para os conectores que ...

3 a resposta

spark.sql.crossJoin.enabled para Spark 2.x

Estou usando o 'preview' Google DataProc Image 1.1 com Spark 2.0.0. Para concluir uma de minhas operações, tenho que concluir um produto cartesiano. Desde a versão 2.0.0, foi criado um parâmetro de configuração do spark (spark.sql.cross ...

1 a resposta

Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)

Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...

1 a resposta

KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc

Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...