Resultados da pesquisa a pedido "google-cloud-dataproc"
Conector BigQuery para Spark no Dataproc - não é possível autenticar usando o arquivo de chave da conta de serviço
Eu seguiUse o conector BigQuery com Spark [https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example] para obter com sucesso dados de um conjunto de dados disponível ao público. Agora, preciso acessar um conjunto de dados ...
Vírus do Google Cloud Dataproc CrytalMiner (dr.who)
Após a criação de um cluster do dataproc, muitos trabalhos são enviados automaticamente ao ResourceManager pelo usuário dr.who. Isso está privando os recursos do cluster e, eventualmente, sobrecarrega o cluster. Há pouca ou nenhuma informação ...
GCP Dataproc - configure o planejador justo do YARN
Eu estava tentando configurar um cluster de dataproc que computasse apenas um trabalho (ou no máximo trabalhos especificados) por vez e o restante estaria na fila. Eu encontrei esta solução,Como configurar a fila de aplicativos FIFO ...
pyspark rdd isCheckPointed () é false
Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...
Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc
Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...
Spark streaming no dataproc lança FileNotFoundException
Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...
Qual conector HBase para Spark 2.0 devo usar?
Nossa pilha é composta pelo Google Data Proc (Spark 2.0) e Google BigTable (HBase 1.2.0) e estou procurando um conector que funcione com essas versões. O Spark 2.0 e o novo suporte à API DataSet não estão claros para os conectores que ...
spark.sql.crossJoin.enabled para Spark 2.x
Estou usando o 'preview' Google DataProc Image 1.1 com Spark 2.0.0. Para concluir uma de minhas operações, tenho que concluir um produto cartesiano. Desde a versão 2.0.0, foi criado um parâmetro de configuração do spark (spark.sql.cross ...
Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)
Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...
KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc
Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...
Página 1 do 2